您订阅的产品有更新,,,,,,,,请实时查阅
查看详情
颁布功夫:2023-08-02
2023年,,,,,,,,是AI人为智能技术全面爆红的一年。。。。。。。。
以ChatGPT、GPT-4、文心一言为代表的AIGC大模型,,,,,,,,集文本撰写、代码开发、诗词创作等职能于一体,,,,,,,,展示出了超强的内容出产能力,,,,,,,,带给人们极大震撼。。。。。。。。

AIGC,,,,,,,,AI-Generated Content(人为智能出产内容)
作为一个通讯老司机,,,,,,,,除了AIGC大模型自身之表,,,,,,,,幼枣君越发关注的,,,,,,,,是模型背后的通讯技术。。。。。。。。到底是一张怎么的壮大网络,,,,,,,,在支持着AIGC的运行????????此表,,,,,,,,AI海潮的全面来袭,,,,,,,,将对传统网络带来怎么的刷新????????
多所周知,,,,,,,,数据、算法和算力,,,,,,,,是人为智能发展的三大根基身分。。。。。。。。

前面提到的几个AIGC大模型,,,,,,,,之所以那么严害,,,,,,,,不仅是由于它们背后有海量的数据投喂,,,,,,,,也由于算法在不休进化升级。。。。。。。。更沉要的是,,,,,,,,人类的算力规模,,,,,,,,已经发展到了肯定水平。。。。。。。。壮大的算力基础设施,,,,,,,,齐全可能支持AIGC的推算需要。。。。。。。。
AIGC发展到此刻,,,,,,,,训练模型参数从千亿级飙升到了万亿级。。。。。。。。为了实现这么大规模的训练,,,,,,,,底层支持的GPU数量,,,,,,,,也达到了万卡级别规模。。。。。。。。
以ChatGPT为例,,,,,,,,他们使用了微软的超算基础设施进行训练,,,,,,,,听说动用了10000块V100 GPU,,,,,,,,组成了一个高带宽集群。。。。。。。。一次训练,,,,,,,,必要亏损算力约3640 PF-days(即每秒1千万亿次推算,,,,,,,,运行3640天)。。。。。。。。
一块V100的FP32算力,,,,,,,,是0.014 PFLOPS(算力单元,,,,,,,,蹬宗每秒1千万亿次的浮点运算)。。。。。。。。一万块V100,,,,,,,,那就是140 PFLOPS。。。。。。。。
也就是说,,,,,,,,若是GPU的利用率是100%,,,,,,,,那么,,,,,,,,实现一次训练,,,,,,,,就要3640÷140=26(天)。。。。。。。。
GPU的利用率是不成能达到100%,,,,,,,,若是按33%算(OpenAI提供的如果利用率),,,,,,,,那就是26再翻三倍,,,,,,,,蹬宗78天。。。。。。。。
能够看出,,,,,,,,GPU的算力、GPU的利用率,,,,,,,,对大模型的训练有很大影响。。。。。。。。

那么问题来了,,,,,,,,影响GPU利用率的最大成分,,,,,,,,是什么呢????????
答案是:网络。。。。。。。。
一万甚至几万块的GPU,,,,,,,,作为推算集群,,,,,,,,与存储集群进行数据交互,,,,,,,,必要极大的带宽。。。。。。。。此表,,,,,,,,GPU集群进行训练推算时,,,,,,,,都不是独立的,,,,,,,,而是混归并行。。。。。。。。GPU之间,,,,,,,,有大量的数据互换,,,,,,,,也必要极大的带宽。。。。。。。。
若是网络不给力,,,,,,,,数据传输慢,,,,,,,,GPU就要期待数据,,,,,,,,导致利用率降落。。。。。。。。利用率降落,,,,,,,,训练功夫就会增长,,,,,,,,成本也会增长,,,,,,,,用户履历会变差。。。。。。。。
业界已经做过一个模型,,,,,,,,推算出网络带宽吞吐能力、通讯时延与GPU利用率之间的关系,,,,,,,,如下图所示:

各人能够看到,,,,,,,,网络吞吐能力越强,,,,,,,,GPU利用率越高;;;;;;;;通讯动态时延越大,,,,,,,,GPU利用率越低。。。。。。。。
一句话,,,,,,,,没有好网络,,,,,,,,别玩大模型。。。。。。。。
为了应对AI集群推算对网络的调整,,,,,,,,业界也是想了不少法子的。。。。。。。。
传统的应对战术,,,,,,,,重要是三种:Infiniband、RDMA、框式互换机。。。。。。。。我们别离来单一相识一下。。。。。。。。
Infiniband(直译为“无限带宽”技术,,,,,,,,缩写为IB)组网,,,,,,,,搞数据通讯的童鞋应该不会陌生。。。。。。。。
这是目前组建高机能网络的最佳蹊径,,,,,,,,带宽极高,,,,,,,,能够实现无拥塞和低时延。。。。。。。。ChatGPT、GPT-4所使用的,,,,,,,,听说就是Infiniband组网。。。。。。。。
若是说Infiniband组网有什么弊端的话,,,,,,,,那就是一个字——贵。。。。。。。。相比传统以太网的组网,,,,,,,,Infiniband组网的成本会贵好几倍。。。。。。。。这项技术比力封关,,,,,,,,业内目前成熟的供给商只有1家,,,,,,,,用户没什么选择权。。。。。。。。
RDMA的全称是Remote Direct Memory Access(远程直接数据存。。。。。。。。。。。。。。。。它是一种新型的通讯机造。。。。。。。。在RDMA规划里,,,,,,,,利用法式的数据,,,,,,,,不再经过CPU和复杂的操作系统,,,,,,,,而是直接和网卡通讯,,,,,,,,不仅大幅提升了吞吐能力,,,,,,,,也降低了时延。。。。。。。。
RDMA最早提出时,,,,,,,,是承载在InfiniBand网络中的。。。。。。。。此刻,,,,,,,,RDMA逐步移植到了以太网上。。。。。。。。
目前,,,,,,,,高机能网络的主流组网规划,,,,,,,,是基于RoCE v2(RDMA over Converged Ethernet,,,,,,,,基于融合以太网的RDMA)和谈来组建支持RDMA的网络。。。。。。。。
这种规划有两个沉要的搭配技术,,,,,,,,别离是PFC(Priority Flow Control,,,,,,,,基于优先级的流量节造)和ECN(Explicit Congestion Notification,,,,,,,,显式拥塞通知)。。。。。。。。它们是为了预防链路中的拥塞而产生的技术,,,,,,,,但是,,,,,,,,频仍被触发,,,,,,,,反而会导致发送端暂停发送,,,,,,,,或降速发送,,,,,,,,进而拉低通讯带宽。。。。。。。。(下文还会提到它们)
国表有部门互联网公司,,,,,,,,寄但愿于利用选取框式互换机(DNX芯片+VOQ技术),,,,,,,,来满足构建高机能网络的需要。。。。。。。。
DNX:broadcom(博通)的一个芯片系列
VOQ:Virtual Output Queue,,,,,,,,虚构输出队列
这种规划看似可行,,,,,,,,但也面对以下几个挑战。。。。。。。。
首先,,,,,,,,框式互换机的扩大能力通常。。。。。。。;;;;;;;;虼笥紫薅攘俗畲蠖丝谑,,,,,,,,如想做更大规模的集群,,,,,,,,必要横向扩大多个机框。。。。。。。。
其次,,,,,,,,框式互换机的设备功耗大。。。。。。。;;;;;;;;蚰谙呖ㄐ酒abric芯片、电扇等数量多多,,,,,,,,单设备的功耗超过2万瓦,,,,,,,,有的甚至3万多瓦,,,,,,,,对机柜供电能力要求太高。。。。。。。。
第三,,,,,,,,框式互换机的单设备端口数量多,,,,,,,,故障域大。。。。。。。。
基于以上原因,,,,,,,,框式互换机设备只适合幼规模部署AI推算集群。。。。。。。。
前面说的都是传统规划。。。。。。。。既然这些传统规划不能,,,,,,,,那当然就要想新法子。。。。。。。。
因而,,,,,,,,一种名叫DDC的全新解决规划,,,,,,,,闪亮登场了。。。。。。。。
DDC,,,,,,,,全名叫做Distributed Disaggregated Chassis(散布式分散式机箱)。。。。。。。。
它是前面框式互换机的“分拆版”。。。。。。。。???????蚴交セ换睦┐竽芰Σ患,,,,,,,,那么,,,,,,,,我们索性把它给拆开,,,,,,,,将一个设备造成多个设备,,,,,,,,不就OK了????????

框式设备,,,,,,,,通常分为互换网板(背板)和业务线卡(板卡)两部门,,,,,,,,相互之间用衔接器衔接。。。。。。。。
DDC规划,,,,,,,,将互换网板造成了NCF设备,,,,,,,,将业务线卡造成了NCP设备。。。。。。。。衔接器,,,,,,,,则造成了光纤。。。。。。。。???????蚴缴璞傅闹卫碇澳,,,,,,,,在DDC架构中,,,,,,,,也造成了NCC。。。。。。。。
NCF:Network Cloud Fabric(网络云治理节造平面)
NCP:Network Cloud Packet Processing(网络云数据包处置)
NCC:Network Cloud Controller(网络云节造器)
DDC从集中式造成散布式之后,,,,,,,,扩大能力大大加强了。。。。。。。。它能够凭据AI集群的大幼,,,,,,,,矫捷设计组网规模。。。。。。。。
我们来举两个例子(单POD组网和多POD组网)。。。。。。。。
单POD组网中,,,,,,,,选取96台NCP作为接入,,,,,,,,其中NCP下行共18个400G接口,,,,,,,,掌管衔接AI推算集群的网卡。。。。。。。。上行共40个200G接口,,,,,,,,最大能够衔接40台NCF,,,,,,,,NCF提供96个200G接口,,,,,,,,该规模高低行带宽为超速比1.1:1。。。。。。。。整个POD可支持1728个400G网络接口,,,,,,,,依照一台服务器配8块GPU来推算,,,,,,,,可支持216台AI推算服务器。。。。。。。。

单POD组网
多级POD组网,,,,,,,,规模??????D芄槐涞酶。。。。。。。。
在多级POD组网中,,,,,,,,NCF设备要就义一半的SerDes,,,,,,,,用于衔接第二级的NCF。。。。。。。。所以,,,,,,,,此时单POD选取48台NCP作为接入,,,,,,,,下行共18个400G接口。。。。。。。。
多POD组网
单个POD内,,,,,,,,能够支持864个400G接口(48×18)。。。。。。。。通过横向增长POD(8个),,,,,,,,实现规模扩容,,,,,,,,整体最大可支持6912个400G网络端口(864×8)。。。。。。。。
NCP上行40个200G,,,,,,,,接POD内40台NCF。。。。。。。。POD内NCF选取48个200G接口,,,,,,,,48个200G接口分为12个一组上行到第二级的NCF。。。。。。。。第二级NCF选取40个平面(Plane),,,,,,,,每个平面4台NCF-P,,,,,,,,别离对应在POD内的40台NCF。。。。。。。。
整个网络的POD内实现了1.1:1的超速比(北向带宽大于南向带宽),,,,,,,,而在POD和二级NCF之间实现了1:1的收敛比(南向带宽/北向带宽)。。。。。。。。

站在规模和带宽吞吐的角度,,,,,,,,DDC已经能够满足AI大模型训练对于网络的需要。。。。。。。。
然而,,,,,,,,网络的运作过程是复杂的,,,,,,,,DDC还必要在时延匹涤注负载平衡性、治理效能等方面有所提升。。。。。。。。
网络在工作的过程中,,,,,,,,可能会出现突发流量,,,,,,,,造成接管端来不及处置,,,,,,,,引起拥塞和丢包。。。。。。。。
为了应对这种情况,,,,,,,,DDC采取了基于VOQ+Cell的转发机造。。。。。。。。

发送端从网络接管到数据包之后,,,,,,,,会分类到VOQ(虚构输出队列)中存储。。。。。。。。
在发送数据包前,,,,,,,,NCP会先发送Credit报文,,,,,,,,确定接管端是否有足够的缓存空间处置这些报文。。。。。。。。
若是接管端OK,,,,,,,,则将数据包吩飕成Cells(数据包的幼切片),,,,,,,,并且动态负载平衡到中央的Fabric节点(NCF)。。。。。。。。
若是接管端临时没能力处置报文,,,,,,,,报文会在发送端的VOQ中暂存,,,,,,,,并不会直接转发到接管端。。。。。。。。
在接管端,,,,,,,,这些Cells会进行沉组和存储,,,,,,,,进而转发到网络中。。。。。。。。
切片后的Cells,,,,,,,,将选取轮询的机造发送。。。。。。。。它可能充分利用到每一条上行链路,,,,,,,,确保所有上行链路的传输数据量近似相称。。。。。。。。

轮询机造
这样的机造,,,,,,,,充分利用了缓存,,,,,,,,能够大幅度削减丢包,,,,,,,,甚至不会产生丢包情况。。。。。。。。数据沉传削减了,,,,,,,,整体通讯时延更不调换低,,,,,,,,从而能够提高带宽利用率,,,,,,,,进而提升业务吞吐效能。。。。。。。。
前面我们提到,,,,,,,,RDMA无损网络中引入了PFC(基于优先级的流量节造)技术,,,,,,,,进行流量节造。。。。。。。。
单一来说,,,,,,,,PFC就是在一条以太网链路上创建 8 个虚构通路,,,,,,,,并为每条虚构通路指定相应优先级,,,,,,,,允许单独暂停和沉启其中肆意一条虚构通路,,,,,,,,同时允许其它虚构通路的流量无中断通过。。。。。。。。

PFC能够实现基于队列的流量节造,,,,,,,,但是,,,,,,,,它也存在一个问题,,,,,,,,那就是死锁。。。。。。。。
所谓死锁,,,,,,,,就是多个互换机之间,,,,,,,,由于环路等原因,,,,,,,,同时出现了拥塞(各自端口缓存亏损超过了阈值),,,,,,,,又都在期待对方开释资源,,,,,,,,从而导致的“僵持状态”(所有互换机的数据流永远梗塞)。。。。。。。。
DDC的组网下,,,,,,,,就不存在PFC的死锁问题。。。。。。。。由于,,,,,,,,站在整个网络的角度,,,,,,,,所有NCP和NCF能够当作一台设备。。。。。。。。对于AI服务器来说,,,,,,,,整个DDC,,,,,,,,就是一个互换机,,,,,,,,不存在多级互换机。。。。。。。。所以,,,,,,,,就不存在死锁。。。。。。。。
图
另表,,,,,,,,凭据DDC的数据转发机造,,,,,,,,可在接口处部署ECN(显式拥塞通知)。。。。。。。。
ECN机造下,,,,,,,,网络设备一旦检测到RoCE v2流量出现了拥塞(内部的Credit缓和存机造无法支持突发流量),,,,,,,,就会向服务器端发送CNP(Congestion Notification Packets,,,,,,,,拥塞通知报文),,,,,,,,要求降速。。。。。。。。
最后再看看治理节造平面。。。。。。。。
前面我们提到,,,,,,,,在DDC架构中,,,,,,,,框式设备的治理职能造成了NCC(网络云节造器)。。。。。。。。NCC极度沉要,,,,,,,,若是选取单点式的方式,,,,,,,,万一出现问题,,,,,,,,就会导致整网故障。。。。。。。。
为了预防出现这样的问题,,,,,,,,DDC能够取缔NCC的集中节造面,,,,,,,,构建散布式OS(操作系统)。。。。。。。。
基于散布式OS,,,,,,,,能够基于SDN运维节造器,,,,,,,,通过尺度接口(Netconf、GRPC等)配置治理设备。。。。。。。。这样的话,,,,,,,,每台NCP和NCF独立治理,,,,,,,,有独立的节造面和治理面,,,,,,,,大大提升了系统的靠得住性,,,,,,,,也越发便于部署。。。。。。。。
综上所述,,,,,,,,相对传统组网,,,,,,,,DDC在组网规模、扩大能力、靠得住性、成本、部署速度方面,,,,,,,,占有显著优势。。。。。。。。它是网络技术升级的产品,,,,,,,,提供了一种颠覆原有网络架构的思路,,,,,,,,能够实现网络硬件的解耦、网络架构的统一、转发容量的扩大。。。。。。。。
业界已经使用OpenMPI测试套件进行过框式设备和传统组网设备的对比仿照测试。。。。。。。。测试结论是:在All-to-All场景下,,,,,,,,相较于传统组网,,,,,,,,框式设备的带宽利用率提升了约20%(对应GPU利用率提升8%左右)。。。。。。。。
正是由于DDC的显著能力优势,,,,,,,,此刻这项技术已经成为行业的沉点发展方向。。。。。。。。例如全发国际网络,,,,,,,,他们就率先推出了两款可交付的DDC产品,,,,,,,,别离是400G NCP互换机——RG-S6930-18QC40F1,,,,,,,,以及200G NCF互换机——RG-X56-96F1。。。。。。。。

RG-S6930-18QC40F1互换机的高度为2U,,,,,,,,提供18个400G的面板口,,,,,,,,40个200G的Fabric内联口,,,,,,,,4个电扇和2个电源。。。。。。。。
RG-X56-96F1互换机的高度为4U,,,,,,,,提供96个200G的Fabric内联口,,,,,,,,8个电扇和4个电源。。。。。。。。
据悉,,,,,,,,全发国际网络会持续研发,,,,,,,,持续推出更多适合智算中心网络场景的产品。。。。。。。。
AIGC的崛起,,,,,,,,已经掀起了互联网行业的新一轮技术革命。。。。。。。。
我们能够看到,,,,,,,,越来越多的企业,,,,,,,,在参与这个赛路,,,,,,,,参加角逐。。。。。。。。这意味着,,,,,,,,网络基础设施的升级,,,,,,,,火烧眉毛。。。。。。。。
DDC的出现,,,,,,,,将大幅提升网络基础设施的能力,,,,,,,,不仅能够有效应对AI革命对网络基础设施提出的挑战,,,,,,,,更将助力整个社会的数字化转型,,,,,,,,加快人类数智时期的全面到来。。。。。。。。
