资讯专栏INFORMATION COLUMN

docker swarm mode 下容器重启IP引发的 CLOSE_WAIT 问题

BlackHole1 / 3402人阅读

摘要:问题问题简述如下图后端写入的日志丢失并且无报错因为不支持时序图把时序图代码嵌入在代码里问题定位过程为什么卡在看状态转换图可以看到收到了一直没有一直卡在和实际的代码是吻合的那么为什么在引发后发消息仍然不报错呢因为协议允许在收到后继续

问题 问题简述

如下图. server docker restart后, client端写入的日志丢失, 并且无报错.
因为不支持时序图, 把时序图代码嵌入在代码里.

​```sequence
client->server: log_data
client->server: log_data
server->server: docker restart
server->client: fin
client->server: log_data loss without error
​```
tcp state diagram

问题定位过程 为什么卡在CLOSE_WAIT.

看tcp状态转换图, 可以看到client收到了fin, 一直没有recv, 一直卡在CLOSE_WAIT. 和实际的代码是吻合的.
那么, 为什么在server docker restart 引发CLOSE_WAIT后, client发消息仍然不报错呢?
因为:

tcp协议允许client在收到fin后, 继续发送消息.

server 在docker restart后 ip 改变, client还是往原来的ip发送消息, 没有主机通知client rst, 导致消息在系统buffer里积压.

积压信息如下:

root@9eeaefa7fe57:/# netstat -nap | grep 27017 | grep 10.0.0
tcp        1  402 10.0.0.186:62281        10.0.0.16:27017         CLOSE_WAIT  4308/server
root@9eeaefa7fe57:/# netstat -nap | grep 27017 | grep 10.0.0
tcp        1  70125 10.0.0.186:62281        10.0.0.16:27017         CLOSE_WAIT  4308/server

此时, 在elixir socket接口层面来看, 不管socket的状态, 还是发送, 都是ok的.

iex(client@client.)25> socket |> :inet.port
{:ok, 57395}
iex(client@client.)26> socket |> :gen_tcp.send("aaa")
:ok

如果主动close, 则会进入LAST_ACK状态

iex(client@client.)27> socket |> :gen_tcp.close()    
:ok
root@9eeaefa7fe57:/# netstat -nap | grep 27017 | grep 10.0.0
tcp        1  70126 10.0.0.186:62281        10.0.0.16:27017         LAST_ACK    -   
CLOSE_WAIT的恢复

如果代码还是只发不收. 是检测不到CLOSE_WAIT的. 显然, 应用层心跳是一个解决方案. 那么, 不使用心跳, 只发不收的情况下, 什么时候才能检测到错误呢?

send buffer 满

tcp keepalive, 默认情况下需要2小时才能检测到连接错误. 见linux keepalive探测对应用层socket api的影响

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/27697.html

相关文章

  • 基于 Docker 1.12 Swarm 集群管理开发实践

    摘要:由于没有了中心化的负载均衡器,集群不会因某台机器异常而导致整个服务对外不可用,很好的避免了单点问题,同时也带了可扩展性。 Mesos/Marathon 折腾久了,我们一直希望有机会深入到 Swarm 内部一探究竟。 另外, Mesos 这一套东西虽然是久经企业级考验的, 但是安装、部署和使用相对复杂,上手有门槛。同时,在今年的 DockerCon 上,内置了Swarm 功能的 Dock...

    My_Oh_My 评论0 收藏0
  • 数人云工程师手记 | 新手快速入门Docker最新版管理工具

    摘要:在之前公众号的数人云工程师手记基于的集群管理开发实践对的服务发现及负载均衡有详细的介绍。服务名称为服务命名,必须为英文或数字。 本文是数人云9月22日线上微信群分享的文章实录。数人云容器管理面板Crane开源以来,很多小伙伴对它还不是非常了解,数人云工程师金鑫从Crane技术背景、环境准备和使用步骤等方面为大家做了详细的介绍,并整理大家常见的问题逐一进行了解答。 引言 Docker1....

    Tangpj 评论0 收藏0
  • Docker Swarm在生产环境中进阶指南

    摘要:应该如何解决本文将给出若干提示,如何在生产环境中使用。路由匹配服务发现负载均衡跨容器通讯非常可靠。在单个端口上运行一个服务,节点的任意主机都可以访问,负载均衡完全在后台实现。 上周数人云给大家分享了——《你可能需要的关于Docker Swarm的经验分享》今天给大家带来这位作者大大的后续文章——《Docker Swarm在生产环境中的进阶指南》 当在本地开发环境中使用Docker,或者...

    galaxy_robot 评论0 收藏0
  • SwarmKit知多少——来自源码世界深入解读

    摘要:一个容器起来,能够对外服务,这时就看下一步的负载均衡服务发现以及编排。它们有不同的应用场景,比如倾向于四层的负载均衡。不单是负载均衡,它同时解决了服务发现和负载均衡两个点。 今天是数人云容器三国演义Meetup嘉宾演讲实录第二弹。数人云工程师春明为大家奉送了一盘干货的大餐,让我们读读源码,深入了解一下SwarmKit的世界吧! 小数前方预警:有大量代码出现! showImg(htt...

    stefanieliang 评论0 收藏0
  • Docker Swarm前世今生

    摘要:当然此时的局限性较大,比如没有副本和负载均衡的概念,这导致服务无法高可用当然也更不存在什么服务网络管理和跨节点数据存储这些东西没有服务模型集群中服务间关系和启动顺序编排也很复杂于是就有了下面的的诞生。 showImg(https://segmentfault.com/img/remote/1460000015317037?w=1885&h=1153); 概述 在我的《Docker S...

    lemon 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<