TCP重传问题的排查思路与实践,有点干货!_tcp不重传-程序员宅基地

技术标签: TCP  Java基础  

个人博客请访问 http://www.x0100.top 

1、关于TCP重传

TCP有重传是正常的机制,为了保障数据传输可靠性。只是局域网环境,网络质量有保障,因为网络问题出现重传应该极低;互联网或城域网环境,线路复杂(可以想象下城市地下管网,错综复杂的电线杆等),网络质量不好保障,重传出现概率较高。

TCP有重传,也不一定是网络层面的问题。也可能是接收端不存在,接收端receive buffer满了,应用程序有异常链接未正常关闭等等等。

2、TCP/IP相关

排查网络问题,要掌握TCP/IP原理,真相都在一个一个的数据包里。以下是和TCP重传比较关键的几个参数。

2.1 建立TCP链接时的参数

  1. #syn包重传多少次后放弃,重传间隔是2的n次方(1s,2s,4s..)

  2. net.ipv4.tcp_syn_retries

  3.  

  4. #syn ack包重传多少次后放弃

  5. net.ipv4.tcp_synack_retries

  6.  

  7. #syn包队列

  8. net.ipv4.tcp_max_syn_backlog

2.2 TCP重传类型

超时重传

在请求包发出去的时候,开启一个计时器,当计时器达到时间之后,没有收到ACK,则就进行重发请求的操作,一直重发直到达到重发上限次数或者收到ACK。

快速重传

当接收方收到的数据包是不正常的序列号,那么接收方会重复把应该收到的那一条ACK重复发送,这个时候,如果发送方收到连续3条的同一个序列号的ACK,那么就会启动快速重传机制,把这个ACK对应的发送包重新发送一次。具体可以参考: 

3、常见问题与措施

3.1单台机器或单个应用机器tcp重传

可能是链接的服务器或端口无法访问

排查思路

 
  1. 1、抓1000或者更多个tcp包

  2. # 出现2次以上seq一样的包就是发生了重传

  3. # syn包重传间隔是指数增加

  4. # 已经建立了链接的tcp重传间隔,参考RTO

  5. # 收到比较多ack重传,一般说明数据包出现乱序,seq较大的先到达了目的端,发送端收到3次sack会触发立即快速重传缺失的tcp分片。快速重传不太影响rt,但是发送窗口立即减半,会对吞吐带宽有一定影响

  6. # 云环境虚拟机,还要考虑分析宿主机的问题

  7.  

  8. sudo ss -anti |grep -B 1 retrans #重传统计

  9.  

  10. if=bond0

  11. sudo tcpdump -w /tmp/tcp.pcap -i $if -c 1000 -nn tcp 2>/dev/null

  12. sudo tcpdump -nn -r /tmp/tcp.pcap | awk '{print $3,$5,$8,$9}' | sort | uniq -c | sort -rn |sed 's/^ \{1,\}//g'|egrep -v "^1 |Request"

  13.  

  14. 2、联通性检查

  15. ping $ip

  16. nc -nvz $ip $port

  17.  

  18. 3、接收端应用程序问题排查;来源和目的抓包,wireshark分析具体是什么包丢失导致了重传

3.2 多台机器或多个应用同时tcp重传

可能是网络抖动

排查思路

  1. 1、查看网络区域埋点,查看网络设备报警,看是否有区域网络抖动

  2. 2、区域网络没问题的话。可以用常见问题:1 的方法缩小排查范围

3.3 带宽跑满

排查思路

  1. 1、查看主机监控,检查是否带宽跑满

  2. 2、检查重传联路上相关的网络设备是否有带宽跑满

3.4 不常见问题

1 网络设备端口或光模块异常等导致包checksum失败 2 网络路由收敛抖动 3 主机网络驱动有bug,网络设备有bug等

4、如何监控

使用tsar -tcp -C 可以监控到tcp的retran属性也即是重传次数。

tsar --tcp -C | sed 's/:/_/g;s/=/ /g' | xargs -n 2

感兴趣的朋友可以直接执行以下监控脚本获取tcp相关的状态监控数据,适用于open-falcon。

  1. #!/usr/bin/env bash

  2. HOSTNAME=`hostname`

  3. timestamp=`date +%s`

  4. tagapp="app=tsar.collect"

  5. data_item=""

  6. tsarcollectstring=`/opt/tsar/bin/tsar --tcp -C | sed 's/:/_/g;s/=/ /g' | xargs  -n 2 | tail -n +2|sed 's/ /|/'`

  7. for i in $tsarcollectstring

  8. do

  9. getkey=`echo $i|awk -F "|" '{print $1}'`

  10. getvalue=`echo $i|awk -F "|" '{print $2}'`

  11. tags="$tagapp"

  12. metric="tsar.collect.$getkey"

  13. metric_item="{\"endpoint\":\"${HOSTNAME}\",\"tags\":\"${tags}\",

  14.  

  15.                  \"timestamp\":${timestamp},\"metric\":\"$metric\",

  16.  

  17.                  \"value\":${getvalue},\"counterType\":\"GAUGE\",

  18.  

  19.                  \"step\":60}"

  20.  

  21. if [ "${data_item}x" = "x" ];then

  22. data_item="$metric_item"

  23. else

  24. data_item="${data_item},${metric_item}"

  25. fi

  26.  

  27. done

  28. echo "[$data_item]"

5、案例实践

1 在遇到丢包重传的机器上抓包并使用wireshark 分析该包,注意因为重传不是时刻都有的,所以抓包命令是要持续执行以便捕捉到重传的包。使用wireshark打开tcpdump的结果,在搜索框里入手tcp.analysis.retransmission 得到如下结果:

图1 表明服务端发生了三次重传动作。

2 由于包比较多,我们可以使用wireshark的追踪流功能获取重传相关的tcp流 

图二 追踪流-->TCP流 可以得到重传相关的数据包

图三 可以看出客户端和服务端的请求与应答。

3 解析重传

特别需要说明的是:

NO 67,68 client端由于某些原因没有收到正确的包数据,向server端发送dup ack,参考基础知识提到的快速重传

NO.68和NO.69之间的时间差200ms(关注time那一列,其他都是相差小于1ms),server等待超时,于是重传。

NO 73-74是client端发送了一个fin包并主动关闭连接。

这个案例仅仅发生一次,没有复现,通过抓包解析出来分析没有得到明确的结论。

6、小结

本文总结自己工作过程中遇到的TCP重传问题的解决过程 ,侧重于大致的解决问题的思路与具体的实践,理论知识偏少,大家有兴趣的可以多查阅相关文章以便深入了解tcp的工作机制。

更多精彩内容扫描下方二维码进入网站。。。。。

关注微信公众号。。。。。

 

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/wufaliang003/article/details/90664256

智能推荐

Kotlin 解压缩_kotlin 对上传的压缩包进行分析-程序员宅基地

文章浏览阅读638次。fun unZip(zipFile: String, context: Context) { var outputStream: OutputStream? = null var inputStream: InputStream? = null try { val zf = ZipFile(zipFile) val entries = zf.entries() while (en..._kotlin 对上传的压缩包进行分析

64K方法数限制解决办法_java函数大于64k编译失败-程序员宅基地

文章浏览阅读1.9k次。随着业务逻辑越来越多,业务模块也越来越大,不可避免会遇到64K方法数的限制。最直观的表现就是编译报错:较早版本的编译系统中,错误内容如下:Conversion to Dalvik format failed:Unable to execute dex: method ID not in [0, 0xffff]: 65536较新版本的编译系统中,错误内容如下:trouble writing outp_java函数大于64k编译失败

案例分享——低压电力线载波通信模组(借助电源线实现远距离数据传输、宽压输入、波特率范围广、应用场景多样化)_电力载波模块csdn-程序员宅基地

文章浏览阅读2k次,点赞7次,收藏10次。物联网领域,有很多数据通信场景,因为原设备整体系统结构、运行环境等方面的限制,需求在不增加通信数据线缆的情况下实现数据的远程传输,因为特殊应用场景下考虑到环境的限制,还不能使用常规的无线通信手段,所以借助电源线缆进行传输的电力线载波技术应运而生,本次博文给大家分享的就是博主完全自主研发的低压电力线载波通信模组。_电力载波模块csdn

密码学基础_密码体制的五个要素-程序员宅基地

文章浏览阅读7.4k次。密码学基本概念 密码学(Cryptology)是结合数学、计算机科学、电子与通信等学科于一体的交叉学科,研究信息系统安全的科学。起源于保密通信技术。具体来讲,研究信息系统安全保密和认证的一门科学。 密码编码学,通过变换消息(对信息编码)使其保密的科学和艺术 密码分析学,在未知密钥的情况下从密文推_密码体制的五个要素

python支持中文路径_基于python 处理中文路径的终极解决方法-程序员宅基地

文章浏览阅读1.9k次。1 、据说python3就没有这个问题了2 、u'字符串' 代表是unicode格式的数据,路径最好写成这个格式,别直接跟字符串'字符串'这类数据相加,相加之后type就是str,这样就会存在解码失误的问题。别直接跟字符串'字符串'这类数据相加别直接跟字符串'字符串'这类数据相加别直接跟字符串'字符串'这类数据相加unicode类型别直接跟字符串'字符串'这类数据相加说四遍3 、有些读取的方式偏偏..._python 路径 中文

阿里云 B 站直播首秀,用 Serverless 搭个游戏机?-程序员宅基地

文章浏览阅读107次。最近,阿云 B 站没声音,是在憋大招!8月5日周四 19:00 是阿里云的直播首秀,给大家请来了 Forrester 评分世界第一的 Serverless 团队产品经理江昱,给大家在线...._阿里云直播b站

随便推点

AS 3.1.3连续依赖多个Module,导致访问不到Module中的类_为什么as在一个包下建了多个module,缺无法打开了-程序员宅基地

文章浏览阅读1.1k次。我好苦啊,半夜还在打代码。还出bug,狗日的。问题是这样的:我在新建的项目里,建了两个Module: fiora-ec和fiora-core。项目的依赖顺序是这样的,App依赖fiora-ec,fiora-ec又依赖于fiora-core,因为这种依赖关系,所有可以在app和fiora-ec中删除一些不必要的引入,比如这个玩意儿:com.android.support:appcompat-v7:..._为什么as在一个包下建了多个module,缺无法打开了

Magento 常用插件二-程序员宅基地

文章浏览阅读1.4k次。1. SMTP 插件 URL:http://www.magentocommerce.com/magento-connect/TurboSMTP/extension/4415/aschroder_turbosmtp KEY:magento-community/Aschroder_TurboSmtp 2. Email Template Adapter..._magento extension pour ricardo.ch

【连载】【FPGA黑金开发板】Verilog HDL那些事儿--低级建模的资源(六)-程序员宅基地

文章浏览阅读161次。声明:本文为原创作品,版权归akuei2及黑金动力社区共同所有,如需转载,请注明出处http://www.cnblogs.com/kingst/ 2.5 低级建模的资源 低级建模有讲求资源的分配,目的是使用“图形”来提高建模的解读性。 图上是低级建模最基本的建模框图,估计大家在实验一和实验二已经眼熟过。功能模块(低级功能模块)是一个水平的长方形,而控制模块(低级控制模块)是矩形。组..._cyclone ep2c8q208c黑金开发板

R语言实用案例分析-1_r语言案例分析-程序员宅基地

文章浏览阅读2.2w次,点赞10次,收藏63次。在日常生活和实际应用当中,我们经常会用到统计方面的知识,比如求最大值,求平均值等等。R语言是一门统计学语言,他可以方便的完成统计相关的计算,下面我们就来看一个相关案例。1. 背景最近西安交大大数据专业二班,开设了Java和大数据技术课程,班级人数共100人。2. 需求通过R语言完成该100位同学学号的生成,同时使用R语言模拟生成Java和大数据技术成绩,成绩满分为100,需要满足正_r语言案例分析

Java知识体系总结(2024版),这一次带你搞懂Spring代理创建过程-程序员宅基地

文章浏览阅读639次,点赞11次,收藏26次。虽然我个人也经常自嘲,十年之后要去成为外卖专员,但实际上依靠自身的努力,是能够减少三十五岁之后的焦虑的,毕竟好的架构师并不多。架构师,是我们大部分技术人的职业目标,一名好的架构师来源于机遇(公司)、个人努力(吃得苦、肯钻研)、天分(真的热爱)的三者协作的结果,实践+机遇+努力才能助你成为优秀的架构师。如果你也想成为一名好的架构师,那或许这份Java成长笔记你需要阅读阅读,希望能够对你的职业发展有所帮助。一个人可以走的很快,但一群人才能走的更远。

车辆动力学及在Unity、UE4中的实现_unity 车辆动力学模型-程序员宅基地

文章浏览阅读3.9k次,点赞9次,收藏53次。受力分析直线行驶时的车轮受力如下:水平方向上,所受合力为:F=Ft+Fw+FfF=F_t+F_w+F_fF=Ft​+Fw​+Ff​其中,FtF_tFt​为牵引力,FwF_wFw​为空气阻力,FfF_fFf​为滚动阻力,下面我们将逐个介绍。驱动力先来说扭矩,扭矩是使物体发生旋转的一个特殊力矩,等于力和力臂的乘积,单位为N∙mN∙mN∙m:设驱动轴的扭矩为TtT_tTt​,车轮半径为rrr,那么牵引力:Ft=Tt⁄rF_t=T_t⁄rFt​=Tt​⁄r如何求得驱动轴扭矩TtT_tTt​呢?_unity 车辆动力学模型