全发国际

620 点全场景落地 丨 半导体大厂熙泰科技的云桌面安全与提效实战分享
预约直播
AI时期,,,,,,医疗网络怎么建 丨 全发国际医疗极简以太彩光双超融合网络解决规划颁布
预约直播
全发国际(中国)有限公司官网
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
全发国际(中国)有限公司官网

您订阅的产品有更新,,,,,,请实时查阅

查看详情
全发国际(中国)有限公司官网 全发国际(中国)有限公司官网

浅析RDMA网络下MMU水线设置

【MMU水线】本文以RDMA网络作为切入点,,,,,,结合现实部署经验,,,,,,分析MMU水线设置的一些思路 。。。。。。

  • 全发国际(中国)有限公司官网

    颁布功夫:2018-06-29

  • 全发国际(中国)有限公司官网

    点击量:

  • 全发国际(中国)有限公司官网

    点赞:

分享至

全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网

我想评论

RDMA(远程直接数据存 。。。。。。,,,,以其对业务带来的高机能、低延时优势,,,,,,在数据中心尤其是AI、HPC、大数据等场景得到了宽泛利用 。。。。。。为保险RDMA的不变运行,,,,,,基础网络必要提供端到端无损零丢包及超低延时的能力,,,,,,这也催生了PFC、ECN等网络流控技术在RDMA网络中的部署 。。。。。。在RDMA网络中,,,,,,若何合理设置MMU(缓存治理单元)水线是确保RDMA网络无损和低延时的关键 。。。。。。本文将以RDMA网络作为切入点,,,,,,结合现实部署经验,,,,,,分析MMU水线设置的一些思路 。。。。。。

 

什么是RDMA ????????

RDMA(Remote Direct Memory Access),,,,,,通俗的说就是远程的DMA技术,,,,,,是为相识决网络传输中服务器端数据处置的延长而产生的 。。。。。。

 

全发国际(中国)有限公司官网

      ▲ 传统模式与RDMA模式工作机造对比

 

如上图,,,,,,在传统模式下,,,,,,两台服务器上的利用之间传输数据,,,,,,过程是这样的:

  • 首先要把数据从利用缓存拷贝到Kernel中的TCP和谈栈缓存;;;;; ;;;
  • 而后再拷贝到驱动层;;;;; ;;;
  • 最后拷贝到网卡缓存 。。。。。。

屡次内存拷贝必要CPU屡次染指,,,,,,导致处置延时大,,,,,,达到数十微秒 。。。。。。同使佧个过程中CPU过多参加,,,,,,大量亏损CPU机能,,,,,,影响正常的数据推算 。。。。。。

在RDMA 模式下,,,,,,利用数据能够绕过Kernel和谈栈直接向网卡写数据,,,,,,带来的显著益处有:

  • 处置延时由数十微秒降低到1微秒内;;;;; ;;;
  • 整个过程险些不必要CPU参加,,,,,,节俭机能;;;;; ;;;
  • 传输带宽更高 。。。。。。

 

RDMA对于网络的诉求

RDMA在高机能推算、大数据分析、IO高并发等场景中利用越来越宽泛 。。。。。。诸如iSICI, SAN, Ceph, MPI, Hadoop, Spark, Tensorflow蹬爪用软件都起头部署RDMA技术 。。。。。。而对于支持端到端传输的基础网络而言,,,,,,低延时(微秒级)、无损(lossless)则是最沉要的指标 。。。。。。

低延时

网络转发延时重要产生在设备节点(这里忽略了光电传输延时和数据串行延时),,,,,,设备转发延时蕴含以下三部门:

  • 存储转发延时:芯片转发流水线处置延长,,,,,,每个hop会产生1微秒左右的芯片处置延时(业界也有尝试使用cut-through模式,,,,,,单跳延长能够降低到0.3微秒左右);;;;; ;;;
  • Buffer缓存延时:当网络拥塞时,,,,,,报文会被缓存起来期待转发 。。。。。。这时Buffer越大,,,,,,缓存报文的功夫就越长,,,,,,产生的时延也会更高 。。。。。。对于RDMA网络,,,,,,Buffer并不是越大越好,,,,,,必要合理选择;;;;; ;;;
  • 沉传延时:在RDMA网络里会有其他技术确保不丢包,,,,,,这部门不做分析 。。。。。。

 

无损

RDMA在无损状态下能够满速度传输,,,,,,而一旦产生丢包沉传,,,,,,机能会急剧降落 。。。。。。在传统网络模式下,,,,,,要想实现不丢包最重要的伎俩就是依赖大缓存,,,,,,但如前文所说,,,,,,这又与低延时矛盾了 。。。。。。因而,,,,,,在RDMA网络环境中,,,,,,必要实现的是较幼Buffer下的不丢包 。。。。。。

在这个限度前提下,,,,,,RDMA实现无损重要是依赖基于PFC和ECN的网络流控技术 。。。。。。

• RDMA无损网络的关键技术:PFC

 

PFC(Priority-based Flow Control),,,,,,基于优先级的流量节造 。。。。。。是一种基于队列的反压机造,,,,,,通过发送Pause帧通知上游设备暂停发包来预防缓存溢出丢包 。。。。。。

 

全发国际(中国)有限公司官网

▲ PFC工作机造示意图

 

PFC允许单独暂停和沉启其中肆意一条虚构通路,,,,,,同时不影响其它虚构通路的流量 。。。。。。如上图所示,,,,,,当队列7的Buffer亏损达到设置的PFC流控水线,,,,,,会触发PFC的反压: 

  • 本端互换机触发发出PFC Pause 。。。。。。,,,,并反向发送给上游设备;;;;; ;;;
  • 收到Pause帧的上游设备会暂停该队列报文的发送,,,,,,同时将报文缓存在Buffer中;;;;; ;;;
  • 若是上游设备的Buffer也达到阈值,,,,,,会持续触发Pause帧向上游反压;;;;; ;;;
  • 最终通过降低该优先级队列的发送速度来预防数据丢包;;;;; ;;;
  • 当Buffer占用降低到复原水线时,,,,,,会发送PFC解除报文 。。。。。。

 

• RDMA无损网络的关键技术:ECN

ECN(Explicit Congestion Notification):显示拥塞通知 。。。。。。ECN是一个极度古老的技术,,,,,,只是之前使用的并不普遍,,,,,,该和谈机造作用于主机与主机之间 。。。。。。

ECN是报文在网络设备出口(Egress port)产生拥塞并触发ECN水线时,,,,,,使用IP报文头的ECN字段象征数据包,,,,,,批注该报文遇到网络拥塞 。。。。。。一旦接管服务器发现报文的ECN被象征,,,,,,立刻产生CNP(拥塞通知报文),,,,,,并将它发送给源端服务器,,,,,,CNP新闻里蕴含了导致拥塞的Flow信息 。。。。。。源端服务器收到后,,,,,,通过降低相应流发送速度,,,,,,缓解网络设备拥塞,,,,,,从而预防产生丢包 。。。。。。

通过之前的描述能够相识到,,,,,,PFC和ECN之所以能够实现网络端到端的零丢包,,,,,,是通过设置分歧的水线来实现的 。。。。。。对这些水线的合理设置,,,,,,就是针对互换机MMU的精密化治理,,,,,,通俗讲就是对互换机Buffer的治理 。。。。。。接下来我们具体分析下PFC的水线设置 。。。。。。

 

PFC水线设置

互换芯片都有固定的Pipeline(转发流水线),,,,,, Buffer治理处于入芯片流程和出芯片流程的中央地位 。。。。。。报文处于在这个地位上时,,,,,,已经知路了该报文的入口和出口信息,,,,,,因而逻辑上就能够分成入方向和出方向别离对缓存进行治理 。。。。。。

PFC水线是基于入方向缓存治理进行触发的 。。。。。。芯片在入口方向提供了8个队列,,,,,,我们能够将分歧优先级的业务报文映射到分歧的队列上,,,,,,从而实现对分歧优先级的报文提供分歧的Buffer分配规划 。。。。。。

全发国际(中国)有限公司官网

▲ 队列Buffer的组成部门

 

具体到每个队列,,,,,,其Buffer分配凭据使用场景设计为3部门:保障缓存,,,,,,共享缓存,,,,,,Headroom 。。。。。。

  • 保障缓存:每个队列的专用缓存,,,,,,确保每个队列均有肯定缓存以保障根基转发;;;;; ;;;
  • 共享缓存:流量突发时能够申请使用的缓存,,,,,,所有队列共享;;;;; ;;;
  • Headroom:在触发PFC水线后,,,,,,到服务器响应降速前,,,,,,还能够持续使用的缓存 。。。。。。

 

• 保障缓存设置

保障缓存是一个静态水线(固定的、独享的) 。。。。。。静态水线的利用率极度低,,,,,,资源亏损却极度大 。。。。。。我们在现实部署时建议不分配保障缓存,,,,,,以削减这部门的缓存亏损 。。。。。。这样,,,,,,入方向报文直接使用共享缓存空间,,,,,,可提高Buffer的利用率 。。。。。。

 

• 共享缓存设置

对于共享缓存的设置,,,,,,必要选取更为矫捷的动态水线 。。。。。。动态水线能凭据当前空闲的Buffer资源,,,,,,以及当前队列已使用的Buffer资源数量来决定能否持续申请到资源 。。。。。。由于系统中空闲共享Buffer资源与已使用的Buffer资源都是时刻变动的,,,,,,因而阈值也处于不休改观中 。。。。。。相对于静态水线,,,,,,动态水线能更矫捷、有效的利用Buffer及预防造成不用要的浪费 。。。。。。

全发国际网络互换机支持基于动态的方式进行Buffer资源的分配,,,,,,对共享缓存的设置分为11档,,,,,,动态水线alpha值=队列可申请缓存量/渣滓共享缓存量 。。。。。。队列的α值越大,,,,,,其在共享缓存中可使用的百分数占比也就越高 。。。。。。

 

全发国际(中国)有限公司官网

▲共享水线α值与可使用率对应关系

 

我们不妨分析一下:

队列的α值设置越 。。。。。。,,,,其最大可申请的共享缓存占比就越幼 。。。。。。当端口拥塞时就会越早触发PFC流控,,,,,,PFC流控生效后队列降速,,,,,,能够很好地确保网络不丢包 。。。。。。

但从机能的角度看,,,,,,过早触发PFC流控,,,,,,会导致RDMA网络吞吐降落 。。。。。。因而我们在MMU水线设置时必要拔取一个平衡值 。。。。。。

PFC水线到底设置几多,,,,,,是一个极度复杂的问题,,,,,,理论上不存在一个固定的值 。。。。。。现实部署时,,,,,,必要我们具体分析业务模型,,,,,,并搭建测试环境进行水线调优,,,,,,找到匹配业务的最相宜的水线 。。。。。。

 

• Headroom设置

Headroom:顾名思义,,,,,,就是头部空间的意思,,,,,,是在PFC触发后,,,,,,到PFC真正生效这一段功夫,,,,,,用来缓存队列报文的 。。。。。。Headroom设置多大相宜 ????????这里与4个成分有关:

  • PG检测到触发XOFF水线,,,,,,到机关PFC帧发出的功夫(这里重要跟配置的检测精度以及均匀队列算法有关,,,,,,固定配置是固定值)
  • 上游收到PFC Pause 。。。。。。,,,,到终场队列转发的功夫(重要跟芯片处置机能有关系,,,,,,互换芯片现实上是固定值)
  • PFC Pause帧在链路上的传输功夫(跟AOC线缆/光纤距离成正比)
  • 队列暂停发送后链路中报文的传输功夫(跟AOC线缆/光纤距离成正比)

 

因而Headroom所必要的缓存大 。。。。。。,,,,我们能够凭据组网的架构,,,,,,以及流量模型测算得出 。。。。。。以100米光纤线 + 100G光 ????????椋,,,,缓存64字节幼包,,,,,,推算出所需的Headroom大幼是408个cell(cell是缓存治理的最幼单元,,,,,,一个报文会占用1个或者多个cell),,,,,,现实测试数据也吻合 。。。。。。当然,,,,,,思考肯定的冗余性,,,,,,Headroom设置建议比理论值稍大 。。。。。。

 

RDMA网络实际

全发国际网络在研发中心搭建了仿照真实业务的RDMA网络,,,,,,架构如下:

全发国际(中国)有限公司官网

▲全发国际网络RDMA组网架构

 

  • 组网模型:大主题三级组网架构,,,,,,主题选取高密100G线卡;;;;; ;;;
  • POD内:Spine选取提供64个100G接口的 BOX设备,,,,,,Leaf选取提供48个25G接口+8个100G接口的BOX设备;;;;; ;;;
  • Leaf作为服务器网关,,,,,,支持和服务器间基于PFC流控(鉴别报文的DSCP并进行PG映射),,,,,,同时支持拥塞ECN象征;;;;; ;;;
  • RDMA仅运行于POD内部,,,,,,不存在跨POD的RDMA流量,,,,,,因而主题无需感知RDMA流量;;;;; ;;;
  • 为了预防拥塞丢包,,,,,,必要在Leaf与Spine之间部署PFC流控技术,,,,,,同时Spine设备也必要支持基于拥塞的ECN象征;;;;; ;;;
  • Leaf和Spine设备支持PFC流控帧统计、ECN象征统计、拥塞丢包统计、基于队列的拥塞统计等,,,,,,并支持将统计信息通过gRPC同步到远端gRPC服务器 。。。。。。

 

写在最后

全发国际网络在研发中心搭建了仿照真实业务的浸泡组网环境(蕴含RG-S6510、RG-S6520、RG-N18000-X系列25G/100G网络设备、大型测试仪、25G服务器) 。。。。。。在叠加了多种业务模型,,,,,,并进行了长功夫浸泡测试后,,,,,,我们对于RDMA网络的MMU水线设置已有一些推荐的经验值 。。。。。。此表,,,,,,在RDMA网络中,,,,,,还存在一些部署难点,,,,,,好比多级网络中 PFC风暴、死锁问题、ECN水线设计复杂问题等 。。。。。。对于这些问题,,,,,,全发国际网络也有一些钻研和堆集,,,,,,等待与各人共同探求 。。。。。。

 

本期作者:颜晓波

全发国际网络互联网系统部行业征询

全发国际(中国)有限公司官网

 

往期杰出回首  

【第一期】浅谈物联网技术之通讯和谈的纷争

【第二期】若何通过网络遥测(Network Telemetry)技术实现精密化网络运维 ????????

【第三期】畅谈数据中心网络运维自动化

【第四期】基于Rogue AP反造的无线安全技术探求

【第五期】流量可视化之ERSPAN的前世今生

【第六期】若何实现数据中心网络架构“去”堆叠

【第七期】运维可视化之INT职能详解

 

有关推荐:

• 若何为RDMA构建无损网络

更多技术博文

任何必要,,,,,,请联系全发国际

全发国际(中国)有限公司官网

返回顶部

收起
全发国际(中国)有限公司官网 文档AI副手
全发国际(中国)有限公司官网 文档评价
该资料是否解决了您的问题 ????????
您对当前页面的中意度若何 ????????
不咋滴
极度好
您中意的原因是(多 。。。。。。 ????????
您对文档是否还有其它的问题或建议 ????????
为尽快解决问题,,,,,,请您留下联系方式以便回复
邮箱
手机号
感激您的反 。。。。。。
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】【sitemap】