全发国际

620 点全场景落地 丨 半导体大厂熙泰科技的云桌面安全与提效实战分享
预约直播
AI时期,,,,,,,,医疗网络怎么建 丨 全发国际医疗极简以太彩光双超融合网络解决规划颁布
预约直播
全发国际(中国)有限公司官网
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
全发国际(中国)有限公司官网

您订阅的产品有更新,,,,,,,,请实时查阅

查看详情
全发国际(中国)有限公司官网 全发国际(中国)有限公司官网

若何为RDMA构建无损网络

【RDMA】本文重要介绍为什么我们必要RDMA???? ????为什么我们必要无损网络???? ????这些先进的技术到底能给我们带来什么益处???? ????并具体介绍若何为RDMA构建无损网络。。。。。

  • 全发国际(中国)有限公司官网

    颁布功夫:2018-09-12

  • 全发国际(中国)有限公司官网

    点击量:

  • 全发国际(中国)有限公司官网

    点赞:

分享至

全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网

我想评论

我们为什么必要无损网络

看过前面几期的技术文章,,,,,,,,相信各人对RDMA(Remote Direct Memory Access,,,,,,,,远程直接数据存取)和无损网络有了肯定的意识,,,,,,,,也许各人会问为什么我们必要RDMA???? ????为什么我们必要无损网络???? ????这些先进的技术到底能给我们带来什么益处???? ????

只从网络层面来看可能无法得出令人中意的答案,,,,,,,,下面别离早年端业务和后端利用,,,,,,,,单一列举几个例子,,,,,,,,相信各人能够从中解开疑惑。。。。。

首先想说的是互联网中大量的在线业务,,,,,,,,例如在线搜索、购物、直播等,,,,,,,,它必要以非???? ????斓乃俣榷愿咂德实挠没б笞龀鲇Υ穑,,,,,,数据中心内任何一个环节导致延长,,,,,,,,城市对终端用户的接见履历造成极大的影响,,,,,,,,从而影响其流量、口碑、活跃用户等。。。。。

 

还有在机械进建和AI的技术趋向下,,,,,,,,对推算能力的需要是呈几何级数上升的,,,,,,,,为了满足日益复杂的神经网络和深度进建模型,,,,,,,,数据中心会存在大量的散布式推算集群,,,,,,,,但大量并行法式的通讯延长,,,,,,,,则会极大影响整个推算过程的效能。。。。。

另表为相识决数据中心内爆炸式增长的数据存储和读取效能问题,,,,,,,,利用以太网融合组网的散布式存储越来越受到迎接。。。。。但由于存储网络中数据流以大象流为主,,,,,,,,所以一旦因拥塞造成丢包,,,,,,,,将会引发大象流沉传,,,,,,,,不仅降低效能,,,,,,,,还会加沉拥塞。。。。。

所以早年端用户的履历和后端利用的效能来看,,,,,,,,眼下对于数据中心网络的要求是:延长越低越好,,,,,,,,效能越高越好。。。。。

为了降低数据中心内部网络延长,,,,,,,,提高处置效能,,,,,,,,RDMA技术应运而生,,,,,,,,通过允许用户态的利用法式直接读取和写入远程内存,,,,,,,,而无需CPU染指屡次拷贝内存,,,,,,,,并可绕过内核直接向网卡写数据,,,,,,,,实现了高吞吐量、超低时延和低CPU开销的成效。。。。。

当前RDMA在以太网上的传输和谈是RoCEv2,,,,,,,,RoCEv2是基于无衔接和谈的UDP和谈,,,,,,,,相比面向衔接的TCP和谈,,,,,,,,UDP和谈越发急剧、占用CPU资源更少,,,,,,,,但其不像TCP和谈那样有滑动窗口、确认应答等机造来实现靠得住传输,,,,,,,,一旦出现丢包,,,,,,,,依附上层利用查抄到了再做沉传,,,,,,,,会大大降低RDMA的传输效能。。。。。

所以要想阐扬出RDMA真正的机能,,,,,,,,突破数据中心大规模散布式系统的网络机能瓶颈,,,,,,,,势必要为RDMA搭建一套不丢包的无损网络环境,,,,,,,,而实现不丢包的关键就是解决网络拥塞。。。。。

 

为什么会产生拥塞

产生拥塞的原因有好多,,,,,,,,下面列举了在数据中心场景里比力关键也是比力常见的三点原因:

收敛比

进行数据中心网络架构设计时,,,,,,,,从成本和收益两方面来思考,,,,,,,,无数会采取非对称带宽设计,,,,,,,,即高低行链路带宽不一致,,,,,,,,互换机的收敛比单一说就是总的输入带宽除以总的输出带宽。。。。。以全发国际万兆互换机RG-S6220-48XS6QXS-H为例,,,,,,,,下行可供服务器输入的带宽是48*10G=480G,,,,,,,,上行输出的带宽是6*40G=240G,,,,,,,,整机收敛比为2:1。。。。。而25G互换机RG-S6510-48VS8CQ,,,,,,,,下行可供服务器输入的带宽是48*25G=1200G,,,,,,,,上行输出的带宽是8*100G=800G,,,,,,,,整机收敛比是1.5:1。。。。。

也就是说,,,,,,,,当下联的服务器上行发包总速度超过上行链路总带宽时,,,,,,,,就会在上行口出现拥塞。。。。。

ECMP

当前数据中心网络多选取Fabric架构,,,,,,,,并选取ECMP来构建多条等价负载平衡的链路,,,,,,,,通过设置扰动因子并HASH选择一条链路来转发是单一的,,,,,,,,但这个过程中却没有思考到所选链路自身是否有拥塞。。。。。ECMP并没有拥塞感知的机造,,,,,,,,只是将流分散到分歧的链路上转发,,,,,,,,对于已经产生拥塞的链路来说,,,,,,,,很可能加剧链路的拥塞。。。。。

TCP Incast

TCP Incast是Many-to-One的通讯模式,,,,,,,,在数据中心云化的大趋向下这种通讯模式时时产生,,,,,,,,尤其是那些以Scale-Out方式实现的散布式存储和推算利用,,,,,,,,蕴含Hadoop、MapReduce、HDFS等。。。。。
例如,,,,,,,,当一个Parent Server向一组节点(服务器集群或存储集群)提议一个要求时,,,,,,,,集群中的节点城市同时收到该要求,,,,,,,,并且险些同时做出响应,,,,,,,,好多节点同时向一台机械(Parent Server)发送TCP数据流,,,,,,,,从而产生了一个“微突发流”,,,,,,,,使得互换机上衔接Parent Server的出端口缓存不及,,,,,,,,造成拥塞。。。。。

 

全发国际(中国)有限公司官网

▲TCP Incast流量模型

 

正如前面所说,,,,,,,,RDMA和TCP分歧,,,,,,,,它必要一个无损网络。。。。。对于通常的微突发流量,,,,,,,,互换机的Buffer缓冲区能够起到肯定作用,,,,,,,,在缓冲区将突发的报文进行列队期待,,,,,,,,但由于增长互换机Buffer容量的成本极度高,,,,,,,,所以它所能起到的作用是有限的,,,,,,,,一旦缓冲区列队的报文过多,,,,,,,,仍旧会产生丢包。。。。。

为了实现端到端的无损转发,,,,,,,,预防由于互换机中的Buffer缓冲区溢出而引发的数据包迷失,,,,,,,,互换机必须引入其他机造,,,,,,,,如流量节造,,,,,,,,通过对链路上流量的节造,,,,,,,,削减对互换机Buffer的压力,,,,,,,,来躲避丢包的产生。。。。。

 

PFC若何实现流控

IEEE 802.1Qbb(Priority-based Flow Control,,,,,,,,基于优先级的流量节造)简称PFC,,,,,,,,是IEEE数据中心桥接(Data Center Bridge)和谈族中的一个技术,,,,,,,,是流量节造的加强版。。。。。

 

说PFC之前,,,,,,,,我们能够先看一下IEEE 802.3X(Flow Control)流控的机造:当接管者没有能力处置接管到的报文时,,,,,,,,为了预防报文被抛弃,,,,,,,,接管者必要通知报文的发送者临时终场发送报文。。。。。

如下图所示,,,,,,,,端口G0/1和G0/2以1Gbps速度转发报文时,,,,,,,,端口F0/1将产生拥塞。。。。。为预防报文迷失,,,,,,,,开启端口G0/1和G0/2的Flow Control职能。。。。。

全发国际(中国)有限公司官网

▲端口产生拥塞的打流模型

 

当F0/1在转发报文出现拥塞时,,,,,,,,互换机B会在端口缓冲区中列队报文,,,,,,,,当拥塞超过肯定阈值时,,,,,,,,端口G0/2向G0/1发PAUSE。。。。。,,,,,,通知G0/1临时终场发送报文。。。。。

G0/1接管到PAUSE帧后临时终场向G0/2发送报文。。。。。暂停功夫长短信息由PAUSE帧所携带。。。。。互换机A会在这个超时领域内期待,,,,,,,,或者直到收到一个Timeout值为0的节造帧后再持续发送。。。。。

IEEE 802.3X和谈存在一个弊端:一旦链路被暂停,,,,,,,,发送方就不能再发送任何数据包,,,,,,,,若是是由于某些优先级较低的数据流引发的暂停,,,,,,,,了局却让该链路上其他更高优先级的数据流也一路被暂停了,,,,,,,,其实是得不偿失的。。。。。

如下图中报文解析所示,,,,,,,,PFC在基础流控IEEE 802.3X基础上进行扩大,,,,,,,,允许在一条以太网链路上创建8个虚构通路,,,,,,,,并为每条虚构通路指定相应优先级,,,,,,,,允许单独暂停和沉启其中肆意一条虚构通路,,,,,,,,同时允许其它虚构通路的流量无中断通过。。。。。

 

全发国际(中国)有限公司官网

▲PFC和谈报文结构解析

 

PFC将流控的粒度从物理端口细化到8个虚构通路,,,,,,,,别离对应Smart NIC硬件上的8个硬件发送队列(这些队列定名为Traffic Class,,,,,,,,别离为TC0,TC1,...,TC7),,,,,,,,在RDMA分歧的封装和谈下,,,,,,,,也有分歧的映射方式。。。。。

RoCEv1

这个和谈是将RDMA数据段封装到以太网数据段内,,,,,,,,再加上以太网的头部,,,,,,,,因而属于二层数据包。。。。。为了对它进行分类,,,,,,,,只能使用VLAN(IEEE 802.1q)头部中的PCP(Priority Code Point)域3 Bits来设置优先级值。。。。。

 

全发国际(中国)有限公司官网

▲二层以太网帧VLAN头部结构

 

RoCEv2

这个和谈是将RDMA数据段先封装到UDP数据段内,,,,,,,,加上UDP头部,,,,,,,,再加上IP头部,,,,,,,,最后再加上以太网头部,,,,,,,,属于三层数据包。。。。。对它进行分类,,,,,,,,既能够使用以太网VLAN中的PCP域,,,,,,,,也能够使用IP头部的DSCP域。。。。。

 

全发国际(中国)有限公司官网

▲三层IP报文头部结构

 

单一来说,,,,,,,,在二层网络的情况下,,,,,,,,PFC使用VLAN中的PCP位来对数据流进行分辨,,,,,,,,在三层网络的情况下,,,,,,,,PFC既能够使用PCP、也能够使用DSCP,,,,,,,,使得分歧数据流能够享受到独立的流节造。。。。。当下数据中心因多选取三层网络,,,,,,,,因而使用DSCP比PCP更拥有优势。。。。。

 

PFC死锁

固然PFC可能通过给分歧队列映射分歧优先级来实现基于队列的流控,,,,,,,,但同时也引入了新的问题,,,,,,,,例如PFC死锁的问题。。。。。

PFC死锁,,,,,,,,是指当多个互换机之间因微环路等原因同时出现拥塞,各自端口缓存亏损超过阈值,,,,,,,,而又相互期待对方开释资源,,,,,,,,从而导致所有互换机上的数据流都永远阻塞的一种网络状态。。。。。

正常情况下,,,,,,,,当一台互换机的端口出现拥塞并触发XOFF水线时,,,,,,,,数据进入的方向(即下游设备)将发送PAUSE帧反压,,,,,,,,上游设备接管到PAUSE帧后终场发送数据,,,,,,,,若是其本地端口缓存亏损超过阈值,,,,,,,,则持续向上游反压。。。。。如此一级级反压,,,,,,,,直到网络终端服务器在PAUSE帧中指定Pause Time内暂停发送数据,,,,,,,,从而解除网络节点因拥塞造成的丢包。。。。。

但在特殊情况下,,,,,,,,例如产生链路故障或设备故障时,,,,,,,,BGP路由沉新收敛期间可能会出现短暂环路,,,,,,,,会导致出现一个循环的缓冲区依赖。。。。。如下图所示,,,,,,,,当4台互换机都达到XOFF水线,,,,,,,,都同时向对端发送PAUSE。。。。。,,,,,,这个时辰该拓扑中所有互换机都处于停流状态,,,,,,,,由于PFC的反压效应,,,,,,,,整个网络或部门网络的吞吐量将变为零。。。。。
 

 

全发国际(中国)有限公司官网

▲PFC死锁示意图

 

即便在无环网络中形成短暂环路时,,,,,,,,也可能产生死锁。。。。。固然经过建复短暂环路会很快隐没,,,,,,,,但它们造成的死锁不是临时的,,,,,,,,即便沉启服务器中断流量,,,,,,,,死锁也不能自动复原。。。。。

为相识除死锁状态,,,,,,,,一方面是要杜绝数据中内心的环路产生,,,,,,,,另一方面则能够通过网络设备的死锁检测职能来实现。。。。。全发国际RG-S6510-48VS8CQ上的Deadlock检测职能,,,,,,,,能够检测到出现Deadlock状态后的一段功夫内,,,,,,,,忽略收到的PFC。。。。。,,,,,,同时对buffer中的报文执行转发或抛弃的操作(默认是转发)。。。。。

例如,,,,,,,,按时器的监控次数可配置设置检测10次,,,,,,,,每次10ms内检测是否收到PFC Pause帧。。。。。若10次均收到则注明产生Deadlock,,,,,,,,对buffer中的报文执行默认操作,,,,,,,,之后将设置100ms作为Recover功夫后复原再检测。。。。。号令如下:

priority-flow-control deadlock cos-value 5 detect 10 recover 100  //10次检测,,,,,,,,100ms recover。。。。。

RDMA无损网络中利用PFC流控机造,,,,,,,,实现了互换机端口缓存溢出前暂停对端流量,,,,,,,,阻止了丢包景象产生,,,,,,,,但由于必要一级一级反压,,,,,,,,效能较低,,,,,,,,所以必要更高效的、端到端的流控能力。。。。。

 

利用ECN实现端到端的拥塞节造

当前的RoCE拥塞节造依赖ECN(Explicit Congestion Notification,,,,,,,,显式拥塞通知)来运行。。。。。ECN最初在RFC 3168中界说,,,,,,,,网络设备会在检测到拥塞时,,,,,,,,通过在IP头部嵌入一个拥塞批示器和在TCP头部嵌入一个拥塞确认实现。。。。。

RoCEv2尺度界说了RoCEv2拥塞治理(RCM)。。。。。启用了ECN之后,,,,,,,,网络设备一旦检测到RoCEv2流量出现了拥塞,,,,,,,,会在数据包的IP头部ECN域进行象征。。。。。

 

全发国际(中国)有限公司官网

▲IP报文头ECN字段结构

 

这个拥塞批示器被主张终端节点依照BTH(Base Transport Header,,,,,,,,存在于IB数据段中)中的FECN拥塞批示标识来诠释意思。。。。。;;;;痪浠八担,,,,,,当被ECN象征过的数据包达到它们正本要达到的主张地时,,,,,,,,拥塞通知就会被反馈给源节点,,,,,,,,源节点再通过对有问题的Queue Pairs(QP)进行网络数据包的速度限度来回应拥塞通知。。。。。

 

ECN交互过程

 

全发国际(中国)有限公司官网

▲ECN交互过程示意图

 

• 发送端发送的IP报文象征支持ECN(10);;;;;

• 互换机在队列拥塞情况下收到该报文,,,,,,,,将ECN字段批改为11并发出,,,,,,,,网络中其他互换机将透传;;;;;

• 接管端收到ECN为11的报文发现拥塞,,,,,,,,正常处置该报文;;;;;

• 接管端产生拥塞公告,,,,,,,,每ms级发送一个CNP(Congestion Notification Packets)报文,,,,,,,,ECN字段为01,,,,,,,,要求报文不能被网络抛弃。。。。。接管端对多个被ECN象征为统一个QP的数据包发送一个单个CNP即可(体式划定见下图);;;;;

• 互换机收到CNP报文后正常转发该报文;;;;;

• 发送端收到ECN象征为01的CNP报文解析后对相应的流(对应启用ECN的QP)利用速度限度算法。。。。。

RoCEv2的CNP包体式如下:

 

全发国际(中国)有限公司官网

▲CNP报文结构

 

值妥贴心的是,,,,,,,,CNP作为拥塞节造报文,,,,,,,,也会存在延长和丢包,,,,,,,,从发送端到接管端经过的每一跳设备、每一条链路城市有肯定的延长,,,,,,,,会最终加大发送端接管到CNP的功夫,,,,,,,,而与此同时互换机端口下的拥塞也会逐步增多,,,,,,,,若发送端不能实时降速,,,,,,,,依然可能造成丢包。。。。。建议拥塞公告域的规模不要过大,,,,,,,,从而预防由于ECN节造报文交互回路的跳数过多,,,,,,,,而影响发送端无法实时降速,,,,,,,,造成拥塞。。。。。

 

 

总结

RDMA网络正是通过在网络中部署PFC和ECN职能来实现无损保险。。。。。PFC技术让我们能够对链路上RDMA专属队列的流量进行节造,,,,,,,,并在互换机入口(Ingress port)出现拥塞时对上游设备流量进行反压。。。。。利用ECN技术我们能够实现端到端的拥塞节造,,,,,,,,在互换机出口(Egress port)拥塞时,,,,,,,,对数据包做ECN象征,,,,,,,,并让流量发送端降低发送速度。。。。。

从充分阐扬网络高机能转发的角度,,,,,,,,我们通常建议通过调整ECN和PFC的buffer水线,,,,,,,,让ECN快于PFC触发,,,,,,,,即网络还是持续全速进行数据转发,,,,,,,,让服务器自动降低发包速度。。。。。若是还不能解决问题,,,,,,,,再通过PFC让上游互换机暂停报文发送,,,,,,,,固然整网吞吐机能降低,,,,,,,,但是不会产生丢包。。。。。

数据中心网络中利用RDMA,,,,,,,,不仅要解决转发面的无损网络需要,,,,,,,,还要关注精密化运维,,,,,,,,能力应对延长和丢包敏感的网络环境。。。。。有关MMU的精密化治理技术以及基于INT的网络可视化技术可参考往期文章。。。。。

 

全发国际25G/100G数据中心解决规划

即将亮相2018荆门 · 云栖大会,,,,,,,,等你来撩!

全发国际(中国)有限公司官网

 

本期作者:赵爽

全发国际网络互联网系统部行业征询

全发国际(中国)有限公司官网

 

往期杰出回首  

  • 【第一期】浅谈物联网技术之通讯和谈的纷争
  • 【第二期】若何通过网络遥测(Network Telemetry)技术实现精密化网络运维???? ????
  • 【第三期】畅谈数据中心网络运维自动化
  • 【第四期】基于Rogue AP反造的无线安全技术探求
  • 【第五期】流量可视化之ERSPAN的前世今生
  • 第六期】若何实现数据中心网络架构“去”堆叠
  • 第七期】运维可视化之INT职能详解
  • 【第八期】浅析RDMA网络下MMU水线设置
  • 【第九期】第七代无线技术802.11ax详解
  • 【第十期】数据中心自动化运维技术索求之互换机零配置上线
  • 【第十一期】 技术盛宴 | 浅谈数据中心100G光???? ????
  • 【第十二期】数据中心网络等价多蹊径(ECMP)技术利用钻研

 

有关推荐:

更多技术博文

任何必要,,,,,,,,请联系全发国际

全发国际(中国)有限公司官网

返回顶部

收起
全发国际(中国)有限公司官网 文档AI副手
全发国际(中国)有限公司官网 文档评价
该资料是否解决了您的问题???? ????
您对当前页面的中意度若何???? ????
不咋滴
极度好
您中意的原因是(多。。。。。???? ????
您对文档是否还有其它的问题或建议???? ????
为尽快解决问题,,,,,,,,请您留下联系方式以便回复
邮箱
手机号
感激您的反。。。。。
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】【sitemap】