加载中…
个人资料
南冠彤
南冠彤
  • 博客等级:
  • 博客积分:0
  • 博客访问:415,028
  • 关注人气:59
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

(转)tcp中close_wait状态

(2012-11-08 18:00:00)
标签:

杂谈

分类: CPP/C

tcp中close_wait状态出现的原因

http://blog.csdn.net/lllxy/article/details/1779866


不久前,我的Socket Client程序遇到了一个非常尴尬的错误。它本来应该在一个socket长连接上持续不断地向服务器发送数据,如果socket连接断开,那么程序会自动不断地重试建立连接。
有一天发现程序在不断尝试建立连接,但是总是失败。用netstat查看,这个程序竟然有上千个socket连接处于CLOSE_WAIT状态,以至于达到了上限,所以无法建立新的socket连接了。
为什么会这样呢?
它们为什么会都处在CLOSE_WAIT状态呢?



CLOSE_WAIT

  对方主动关闭连接或者网络异常导致连接中断,这时我方的状态会变成CLOSE_WAIT 此时我方要调用close()来使得连接正确关闭。

我的问题是:
(1) 对于C/S的双方,是不是其中一方的socket句柄处于"主动关闭连接或者网络异常导致连接中断",那么另一方就自动变成CLOSE_WAIT状态? 这个是TCP/IP协议栈自动完成的?
(2) 变成"CLOSE_WAIT"的一方,VC程序的Wait函数是否一定能检测到"现在应该关闭连接"这种状态? 如果我创建的是异步的socket(overlapped绑定了一个event句柄),会不会可能检测不到?

我现在看的一个系统,用的就是异步socket,用wait函数来侦测所有的io和close事件. 
但是现在发生了问题,一方断开了连接,一方过了几个小时以后才检测到close状态事件。这可能会是什么原因呢?

---------------------------------------------
我的Wait函数响应之后调用我自己写的这么一个函数。
。。。。。
C/C++ code

{
    WSANETWORKEVENTS evts;
    ZeroMemory( &evts, sizeof(evts) );

    //
    //  grab the network events that have happenned
    //

    WSAEnumNetworkEvents( m_hSocket, m_evtAsync, &evts );

    if( evts.iErrorCode[ FD_CLOSE_BIT ] != 0 ||
        evts.iErrorCode[ FD_READ_BIT ]  != 0 ||
        evts.iErrorCode[ FD_WRITE_BIT ] != 0 ||
        evts.lNetworkEvents & FD_CLOSE )
    {
        Close();
        m_pSink->OnIpcIOClose();
        return false; // no more events please
    }

    //
    //  先处理read再处理write(可能同时有),所以下面的代码不是else
    //

    if( evts.lNetworkEvents & FD_READ )
    {
        ....
    }

    if( evts.lNetworkEvents & FD_WRITE )
    {
        ....
    }

    return true; // we want more events
}


模拟这样一个环境:服务器192.168.1.112:4500在接收到一个客户端的连接后,休眠五秒后,服务器关闭与客户 端通讯的socket后正常退出,而客户端在连接服务器后,等待用户输入字符后,发送给客户端。现在有这样几个问题:

1.       服务器在休眠五秒后,正常退出了,但是由于客户端还在等待用户输入,此时服务器端TCP的状态是什么?(FIN_WAIT_2)客户端的TCP状态是什么?(CLOSE_WAIT)

2.       服务器在休眠五秒后,正常退出了,在服务器退出后,如果客户端异常退出,那么服务器端TCP的状态是什么?客户端的TCP状态是什么?

       在服务器正常退出后,客户端异常退出,那么客户端就会向服务器发送RST标志,然后客户端和服务器端的TCP状态都是CLOSED

3.       服务器在休眠五秒后,正常退出了,在服务器退出后,从客户端输入数据后,向服务器发送,此时服务器怎样处理这个数据?

       客户端通过PSH标志向服务器段发送数据,能够发送成功,但因为服务器的TCP处于(FIN_WAIT_2)状态,此时服务器会向客户端发送一个RST标示,并且服务器端口状态和客户端的TCP状态都变为CLOSED。

4.       在服务器休眠的过程中,杀死服务器进程,服务器端TCP状态是什么?客户端的TCP状态是什么?

 在服务器休眠的过程中,杀死服务器进程,此时服务器方会向客户端发送一个RST标志,服务器TCP状态是
CLOSED,客户端的TCP状态也是CLOSE.
在服务器休眠五秒后,如果不关闭与客户端通讯的Socket直接正常退出,此时,服务器方也向客户端发送了
RST标志。
 
对于上面的四个问题,必须注意到服务器正常断开的时候,向客户端发送的FIN根本不能被 客户端的所正常处理,因为客户端正处于接收用户的输入。所以由于每次都是服务器主动断开,但是服务器TCP状态却有可能不能进入到Time_Wait状 态。有兴趣的可以研究以下第三个问题,看看在什么情况下,服务器可以进入到Time_wait状态.  (在服务器正常退出后,客户端也接着正常退出,服务器TCP就会进入到Time_wait状态)



CLOSE_WAIT出现的原因: 就是某一方在网络连接断开后,对等方没有检测到这个错误(对方断开)而没有调用 closesocket,导致了这个状态的出现;
 
断开连接的时候: 
      当发起主动关闭的左边这方发送一个FIN过去后,右边被动关闭的这方要回应一个ACK,这个ACK是TCP回应的(同时TCP向上层应用程序提交一个 ERROR,导致上面的SOCKET的send或者recv返回SOCKET_ERROR),而不是应用程序发送的,此时,被动关闭的一方就处于 CLOSE_WAIT状态了。如果此时被动关闭的这一方不再继续调用closesocket,那么他就不会发送接下来的FIN,导致自己老是处于 CLOSE_WAIT。只有被动关闭的这一方调用了closesocket,才会发送一个FIN给主动关闭的这一方,同时也使得自己的状态变迁为 LAST_ACK,待接收到主动关闭方发送的ACK后,才会将SOCKET置为CLOSED。


int nRet = recv(sockConnected, szRecvBuffer,sizeof(szRecvBuffer),0);
///
/// 当对方调用closesocket的时候,我的程序正在recv,
/// 这时候有可能对方发送的FIN包我没有收到,而是由TCP代回了一个ACK包,
/// 所以我这边程序进入CLOSE_WAIT状态。
/// 所以建议在这里判断是否已出错,是就主动closesocket。
/// 因为前面已经设置了recv超时时间为30秒,那么如果真的是超时了,
/// 这里收到的错误应该是WSAETIMEDOUT,这种情况下也可以关闭连接的
if (nRet == SOCKET_ERROR)
{
   TRACE_INFO(_T("=用recv接收发生Socket错误="));
   closesocket(sockConnected);
   return FALSE;
}

检测到SOCKET_ORROR 则主动调用closesocket() 关闭套接字; 
***************************************************************
首先我们知道,如果我们的Client程序处于CLOSE_WAIT状态的话,说明套接字是被动关闭的!
因为如果是Server端主动断掉当前连接的话,那么双方关闭这个TCP连接共需要四个packet
       Server ---> FIN ---> Client
       Server <--- ACK <--- Client
    时候Server端处于FIN_WAIT_2状态;而我们的程序处于CLOSE_WAIT状态。
       Server <--- FIN <--- Client
Client发送FINServerClient就置为LAST_ACK态。
        Server ---> ACK ---> Client
Server回应了ACK,那么Client的套接字才会真正置为CLOSED状态。

我们的程序处于CLOSE_WAIT状态,而不是LAST_ACK,说明还没有发FINServer,那么可能是在关闭连接之前还有许多数据要发送或者其他事要做,导致没有发这个FIN packet
原因知道了,那么为什么不发FIN包呢,难道会在关闭己方连接前有那么多事情要做吗?
还有一个问题,为什么有数千个连接都处于这个状态呢?难道那段时间内,服务器端总是主动拆除我们的连接吗?
不管怎么样,我们必须防止类似情况再度发生!
首先,我们要防止不断开辟新的端口,这可以通过设置SO_REUSEADDR套接字选项做到:
重用本地地址和端口
以前我总是一个端口不行,就换一个新的使用,所以导致让数千个端口进入CLOSE_WAIT状态。如果下次还发生这种尴尬状况,我希望加一个限定,只是当前这个端口处于CLOSE_WAIT状态!
在调用
sockConnected = socket(AF_INET, SOCK_STREAM, 0);
之后,我们要设置该套接字的选项来重用:
/// 允许重用本地地址和端口:
/// 这样的好处是,即使socket断了,调用前面的socket函数也不会占用另一个,而是始终就是一个端口
/// 这样防止socket始终连接不上,那么按照原来的做法,会不断地换端口。
int nREUSEADDR = 1;
setsockopt(sockConnected,
              SOL_SOCKET,
              SO_REUSEADDR,
              (const char*)&nREUSEADDR,
              sizeof(int));
教科书上是这么说的:这样,假如服务器关闭或者退出,造成本地地址和端口都处于TIME_WAIT状态,那么SO_REUSEADDR就显得非常有用。
也许我们无法避免被冻结在CLOSE_WAIT状态永远不出现,但起码可以保证不会占用新的端口。
其次,我们要设置SO_LINGER套接字选项:(相关介绍可参考:SO_LINGER 选项设置)
从容关闭还是强行关闭?
LINGER是“拖延”的意思。
默认情况下(Win2k)SO_DONTLINGER套接字选项的是1SO_LINGER选项是,linger{l_onoff0l_linger0}
如果在发送数据的过程中(send()没有完成,还有数据没发送)而调用了closesocket(),以前我们一般采取的措施是“从容关闭”:
因为在退出服务或者每次重新建立socket之前,我都会先调用
/// 先将双向的通讯关闭
     shutdown(sockConnected, SD_BOTH);
     /// 安全起见,每次建立Socket连接前,先把这个旧连接关闭
closesocket(sockConnected);
我们这次要这么做:
设置SO_LINGER为零(亦即linger结构中的l_onoff域设为非零,但l_linger0,便不用担心closesocket调用进入“锁定”状态(等待完成),不论是否有排队数据未发送或未被确认。这种关闭方式称为“强行关闭”,因为套接字的虚电路立即被复位,尚未发出的所有数据都会丢失。在远端的recv()调用都会失败,并返回WSAECONNRESET错误。
connect成功建立连接之后设置该选项:
linger m_sLinger;
m_sLinger.l_onoff = 1; // (在closesocket()调用,但是还有数据没发送完毕的时候容许逗留)
m_sLinger.l_linger = 0; // (容许逗留的时间为0秒)
setsockopt(sockConnected,
         SOL_SOCKET,
         SO_LINGER,
         (const char*)&m_sLinger,
         sizeof(linger));
总结
也许我们避免不了CLOSE_WAIT状态冻结的再次出现,但我们会使影响降到最小,希望那个重用套接字选项能够使得下一次重新建立连接时可以把CLOSE_WAIT状态踢掉。

Feedback
# 回复:[Socket]尴尬的CLOSE_WAIT状态以及应对策略 2005-01-30 3:41 PM yun.zheng
回复人: elssann(臭屁虫和他的开心果) ( ) 信誉:51 2005-01-30 14:00:00 得分: 0


我的意思是:当一方关闭连接后,另外一方没有检测到,就导致了CLOSE_WAIT的出现,上次我的一个朋友也是这样,他写了一个客户端和 APACHE连接,当APACHE把连接断掉后,他没检测到,出现了CLOSE_WAIT,后来我叫他检测了这个地方,他添加了调用 closesocket的代码后,这个问题就消除了。
如果你在关闭连接前还是出现CLOSE_WAIT,建议你取消shutdown的调用,直接两边closesocket试试。


另外一个问题:

比如这样的一个例子:
当客户端登录上服务器后,发送身份验证的请求,服务器收到了数据,对客户端身份进行验证,发现密码错误,这时候服务器的一般做法应该是先发送一个密码错误的信息给客户端,然后把连接断掉。

如果把
m_sLinger.l_onoff = 1;
m_sLinger.l_linger = 0;
这样设置后,很多情况下,客户端根本就收不到密码错误的消息,连接就被断了。

 

# 回复:[Socket]尴尬的CLOSE_WAIT状态以及应对策略 2005-01-30 3:41 PM yun.zheng
elssann(臭屁虫和他的开心果) ( ) 信誉:51 2005-01-30 13:24:00 得分: 0


出现CLOSE_WAIT的原因很简单,就是某一方在网络连接断开后,没有检测到这个错误,没有执行closesocket,导致了这个状态的实现,这在TCP/IP协议的状态变迁图上可以清楚看到。同时和这个相对应的还有一种叫TIME_WAIT的。

另外,把SOCKET的SO_LINGER设置为0秒拖延(也就是立即关闭)在很多时候是有害处的。
还有,把端口设置为可复用是一种不安全的网络编程方法。

 


# 回复:[Socket]尴尬的CLOSE_WAIT状态以及应对策略 2005-01-30 3:42 PM yun.zheng
elssann(臭屁虫和他的开心果) ( ) 信誉:51 2005-01-30 14:48:00 得分: 0


能不能解释请看这里
http://blog.csdn.net/cqq/archive/2005/01/26/269160.aspx

 

再看这个图:

http://tech.ccidnet.com/pub/attachment/2004/8/322252.png

断开连接的时候,
当发起主动关闭的左边这方发送一个FIN过去后,右边被动关闭的这方要回应一个ACK,这个ACK是TCP回应的,而不 是应用程序发送的,此时,被动关闭的一方就处于CLOSE_WAIT状态了。如果此时被动关闭的这一方不再继续调用closesocket,那么他就不会 发送接下来的FIN,导致自己老是处于CLOSE_WAIT。只有被动关闭的这一方调用了closesocket,才会发送一个FIN给主动关闭的这一 方,同时也使得自己的状态变迁为LAST_ACK。

 


# 回复:[Socket]尴尬的CLOSE_WAIT状态以及应对策略 2005-01-30 3:54 PM yun.zheng
elssann(臭屁虫和他的开心果) ( ) 信誉:51 2005-01-30 15:39:00 得分: 0


比如被动关闭的是客户端。。。

当对方调用closesocket的时候,你的程序正在

int nRet = recv(s,....);
if (nRet == SOCKET_ERROR)
{
// closesocket(s);
return FALSE;
}

很多人就是忘记了那句closesocket,这种代码太常见了。

我的理解,当主动关闭的一方发送FIN到被动关闭这边后,被动关闭这边的TCP马上回应一个ACK过去,同时向上面应用程序提交一个ERROR,导 致上面的SOCKET的send或者recv返回SOCKET_ERROR,正常情况下,如果上面在返回SOCKET_ERROR后调用了 closesocket,那么被动关闭的者一方的TCP就会发送一个FIN过去,自己的状态就变迁到LAST_ACK.

 


# 回复:[Socket]尴尬的CLOSE_WAIT状态以及应对策略 2005-01-30 4:17 PM yun.zheng
int nRecvBufLength =
recv(sockConnected,
szRecvBuffer,
sizeof(szRecvBuffer),
0);
/// zhengyun 20050130:
/// elssann举例说,当对方调用closesocket的时候,我的程序正在
/// recv,这时候有可能对方发送的FIN包我没有收到,而是由TCP代回了
/// 一个ACK包,所以我这边程序进入CLOSE_WAIT状态。
/// 所以他建议在这里判断是否已出错,是就主动closesocket。
/// 因为前面我们已经设置了recv超时时间为30秒,那么如果真的是超时了,
/// 这里收到的错误应该是WSAETIMEDOUT,这种情况下也可以关闭连接的
if (nRecvBufLength == SOCKET_ERROR)
{
TRACE_INFO(_T("=用recv接收发生Socket错误="));
closesocket(sockConnected);
continue;
}

这样可以吗?

网络连接无法释放—— CLOSE_WAIT

关键字:TCP ,CLOSE_WAIT, Java, SocketChannel

 

问题描述:最 近性能测试碰到的一个问题。客户端使用NIO,服务器还是一般的Socket连接。当测试进行一段时间以后,发现服务器端的系统出现大量未释放的网络连 接。用netstat -na查看,连接状态为CLOSE_WAIT。这就奇怪了,为什么Socket已经关闭而连接依然未释放。

 

解决:Google了半天,发现关于CLOSE_WAIT的问题一般是C的,Java似乎碰到这个问题的不多(这有一篇不错的,也是解决CLOSE_WAIT的,但是好像没有根本解决,而是选择了一个折中的办法)。接着找,由于使用了NIO,所以怀疑可能是这方面的问题,结果找到了这篇。顺着帖子翻下去,其中有几个人说到了一个问题—— 一端的Socket调用close后,另一端的Socket没有调用close.于是查了一下代码,果然发现Server端在某些异常情况时,没有关闭Socket。改正后问题解决。

时间基本上花在Google上了,不过也学到不少东西。下面为一张TCP连接的状态转换图:

 



image

 

说明:虚线和实线分别对应服务器端(被连接端)和客户端端(主动连接端)。

结合上图使用netstat -na命令即可知道到当前的TCP连接状态。一般LISTEN、ESTABLISHED、TIME_WAIT是比较常见。

 

分析:

上面我碰到的这个问题主要因为TCP的结束流程未走完,造成连接未释放。现设客户端主动断开连接,流程如下

 

       Client                            消息                                    Server

         close()
                                      ------ FIN ------->
        FIN_WAIT1                                                         CLOSE_WAIT
                                      <----- ACK -------
        FIN_WAIT2 
                                                                                  close()
                                       <------ FIN ------                     
        TIME_WAIT                                                       LAST_ACK      

                                      ------ ACK ------->  
                                                                                   CLOSED
           CLOSED

 

如上图所示,由于Server的Socket在客户端已经关闭时而没有调用关闭,造成服务器端的连接处在“挂起”状态,而客户端则处在等待应答的状态上。此问题的典型特征是:一端处于FIN_WAIT2 ,而另一端处于CLOSE_WAIT. 不过,根本问题还是程序写的不好,有待提高。


TIME_WAIT状态

根据TCP协议,主动发起关闭的一方,会进入TIME_WAIT状态,持续2*MSL(Max Segment Lifetime),缺省为240秒,在这个post中简洁的介绍了为什么需要这个状态。

值得一说的是,对于基于TCP的HTTP协议,关闭TCP连接的是Server端,这样,Server端会进入TIME_WAIT状态,可 想而知,对于访问量大的Web Server,会存在大量的TIME_WAIT状态,假如server一秒钟接收1000个请求,那么就会积压240*1000=240,000个 TIME_WAIT的记录,维护这些状态给Server带来负担。当然现代操作系统都会用快速的查找算法来管理这些TIME_WAIT,所以对于新的 TCP连接请求,判断是否hit中一个TIME_WAIT不会太费时间,但是有这么多状态要维护总是不好。

HTTP协议1.1版规定default行为是Keep-Alive,也就是会重用TCP连接传输多个 request/response,一个主要原因就是发现了这个问题。还有一个方法减缓TIME_WAIT压力就是把系统的2*MSL时间减少,因为 240秒的时间实在是忒长了点,对于Windows,修改注册表,在HKEY_LOCAL_MACHINE/ SYSTEM/CurrentControlSet/Services/ Tcpip/Parameters上添加一个DWORD类型的值TcpTimedWaitDelay,一般认为不要少于60,不然可能会有麻烦。

对于大型的服务,一台server搞不定,需要一个LB(Load Balancer)把流量分配到若干后端服务器上,如果这个LB是以NAT方式工作的话,可能会带来问题。假如所有从LB到后端Server的IP包的 source address都是一样的(LB的对内地址),那么LB到后端Server的TCP连接会受限制,因为频繁的TCP连接建立和关闭,会在server上留 下TIME_WAIT状态,而且这些状态对应的remote address都是LB的,LB的source port撑死也就60000多个(2^16=65536,1~1023是保留端口,还有一些其他端口缺省也不会用),每个LB上的端口一旦进入 Server的TIME_WAIT黑名单,就有240秒不能再用来建立和Server的连接,这样LB和Server最多也就能支持300个左右的连接。 如果没有LB,不会有这个问题,因为这样server看到的remote address是internet上广阔无垠的集合,对每个address,60000多个port实在是够用了。

一开始我觉得用上LB会很大程度上限制TCP的连接数,但是实验表明没这回事,LB后面的一台Windows Server 2003每秒处理请求数照样达到了600个,难道TIME_WAIT状态没起作用?用Net Monitor和netstat观察后发现,Server和LB的XXXX端口之间的连接进入TIME_WAIT状态后,再来一个LB的XXXX端口的 SYN包,Server照样接收处理了,而是想像的那样被drop掉了。翻书,从书堆里面找出覆满尘土的大学时代买的《UNIX Network Programming, Volume 1, Second Edition: Networking APIs: Sockets and XTI》,中间提到一句,对于BSD-derived实现,只要SYN的sequence number比上一次关闭时的最大sequence number还要大,那么TIME_WAIT状态一样接受这个SYN,难不成Windows也算BSD-derived?有了这点线索和关键字 (BSD),找到这个post,在NT4.0的时候,还是和BSD-derived不一样的,不过Windows Server 2003已经是NT5.2了,也许有点差别了。

做个试验,用Socket API编一个Client端,每次都Bind到本地一个端口比如2345,重复的建立TCP连接往一个Server发送Keep-Alive=false 的HTTP请求,Windows的实现让sequence number不断的增长,所以虽然Server对于Client的2345端口连接保持TIME_WAIT状态,但是总是能够接受新的请求,不会拒绝。那 如果SYN的Sequence Number变小会怎么样呢?同样用Socket API,不过这次用Raw IP,发送一个小sequence number的SYN包过去,Net Monitor里面看到,这个SYN被Server接收后如泥牛如海,一点反应没有,被drop掉了。

按照书上的说法,BSD-derived和Windows Server 2003的做法有安全隐患,不过至少这样至少不会出现TIME_WAIT阻止TCP请求的问题,当然,客户端要配合,保证不同TCP连接的sequence number要上涨不要下降。


0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有