2023-03-21

wireshark分析TCP吞吐瓶颈

———— 原文：https://www.kawabangga.com/posts/4794

words: 1.2k views: time: 4min

Devops

tcp

理解下吞吐量低的原因，以及如何通过wireshark来确认

吞吐量低的原因

关于网络质量一般会关注两个因素：延迟和吞吐量（带宽）。延迟比较好验证，ping一下或者mtr一下就能看出来，而吞吐量则可能有3个方面的影响：

发送端出现了瓶颈
接收端出现了瓶颈
中间的网络层出现了瓶颈

发送端出现瓶颈一般的情况是buffer不够大，因为发送的过程是，应用调用syscall，将要发送的数据放到buffer，然后由系统负责发送出去。如果buffer满了，那么应用会阻塞住（如果使用block的API的话），直到buffer可用了再继续write，生产者和消费者模式。

所以发送端出现瓶颈一般都比较好排查，甚至通过应用的日志看何时阻塞住了即可。后面两种情况比较麻烦，此时发送端的应用已经将内容写入到了系统的 buffer 中，但是系统并没有很快的发送出去。

Tcp保护

TCP为了优化传输效率，（这里的传输效率，并不是单纯某一个TCP连接的传输效率，而是整体网络的效率），会对接收端和网络进行保护

接收端保护

在连接建立的时候，会协商接收端的buffer大小(receiver window size, rwnd), 并且在后续的发送中，接收端也会在每一个ack回包中报告自己剩余和接受的window大小。这样，发送端在发送的时候会保证不会发送超过接收端buffer大小的数据。

网络保护

对于网络的保护，原理也是维护一个Window，叫做拥塞窗口(Congestion window, cwnd)，这个窗口就是当前网络的限制，发送端不会发送超过这个窗口的容量（未收到ack的总数不会超过cwnd）。

默认通过算法cubic来确定，思路是通过慢启动(slow start)发送数据来测试，如果能正确收到receiver那边的ack，说明当前网络能容纳这个吞吐，然后将cwnd翻倍，继续测试，直到下面一种情况发生：

发送的包没有收到ACK
cwnd已经等于rwnd了

第2种情况很好理解，说明瓶颈不在网络，而在于接收端的buffer不够大。对于第1情况，其实就是发送端是用丢包来检测网络状况的，如果发生丢包，说明网络处理不了这个发送速度，这时候发送端会直接将cwnd减半。但造成第1种情况的并不一定是网络吞吐瓶颈，而可能有以下几种情况：

网络达到了瓶颈
网络质量问题丢包
中间网络设备延迟了包的送达，导致发送端没有在预期时间内收到ACK

所以下面就是想通过wireshark来分析吞吐量的原因，是在接受端还是中间网络，是真的网络吞吐量低还是别的原因