全发国际

620 点全场景落地 丨 半导体大厂熙泰科技的云桌面安全与提效实战分享
预约直播
AI时期,,,,,,,,医疗网络怎么建 丨 全发国际医疗极简以太彩光双超融合网络解决规划颁布
预约直播
全发国际(中国)有限公司官网
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
全发国际(中国)有限公司官网

您订阅的产品有更新,,,,,,,,请实时查阅

查看详情

到底什么样的网络,,,,,,,,能力带得动AIGC????????

全发国际(中国)有限公司官网 颁布功夫:2023-08-02
全发国际(中国)有限公司官网

2023年,,,,,,,,是AI人为智能技术全面爆红的一年。。。。。。。。

以ChatGPT、GPT-4、文心一言为代表的AIGC大模型,,,,,,,,集文本撰写、代码开发、诗词创作等职能于一体,,,,,,,,展示出了超强的内容出产能力,,,,,,,,带给人们极大震撼。。。。。。。。

全发国际(中国)有限公司官网

AIGC,,,,,,,,AI-Generated Content(人为智能出产内容)

作为一个通讯老司机,,,,,,,,除了AIGC大模型自身之表,,,,,,,,幼枣君越发关注的,,,,,,,,是模型背后的通讯技术。。。。。。。。到底是一张怎么的壮大网络,,,,,,,,在支持着AIGC的运行????????此表,,,,,,,,AI海潮的全面来袭,,,,,,,,将对传统网络带来怎么的刷新????????

AIGC,,,,,,,,到底必要多大的算力????????

多所周知,,,,,,,,数据、算法和算力,,,,,,,,是人为智能发展的三大根基身分。。。。。。。。

全发国际(中国)有限公司官网

前面提到的几个AIGC大模型,,,,,,,,之所以那么严害,,,,,,,,不仅是由于它们背后有海量的数据投喂,,,,,,,,也由于算法在不休进化升级。。。。。。。。更沉要的是,,,,,,,,人类的算力规模,,,,,,,,已经发展到了肯定水平。。。。。。。。壮大的算力基础设施,,,,,,,,齐全可能支持AIGC的推算需要。。。。。。。。

AIGC发展到此刻,,,,,,,,训练模型参数从千亿级飙升到了万亿级。。。。。。。。为了实现这么大规模的训练,,,,,,,,底层支持的GPU数量,,,,,,,,也达到了万卡级别规模。。。。。。。。

以ChatGPT为例,,,,,,,,他们使用了微软的超算基础设施进行训练,,,,,,,,听说动用了10000块V100 GPU,,,,,,,,组成了一个高带宽集群。。。。。。。。一次训练,,,,,,,,必要亏损算力约3640 PF-days(即每秒1千万亿次推算,,,,,,,,运行3640天)。。。。。。。。

一块V100的FP32算力,,,,,,,,是0.014 PFLOPS(算力单元,,,,,,,,蹬宗每秒1千万亿次的浮点运算)。。。。。。。。一万块V100,,,,,,,,那就是140 PFLOPS。。。。。。。。

也就是说,,,,,,,,若是GPU的利用率是100%,,,,,,,,那么,,,,,,,,实现一次训练,,,,,,,,就要3640÷140=26(天)。。。。。。。。

GPU的利用率是不成能达到100%,,,,,,,,若是按33%算(OpenAI提供的如果利用率),,,,,,,,那就是26再翻三倍,,,,,,,,蹬宗78天。。。。。。。。

能够看出,,,,,,,,GPU的算力、GPU的利用率,,,,,,,,对大模型的训练有很大影响。。。。。。。。

全发国际(中国)有限公司官网

那么问题来了,,,,,,,,影响GPU利用率的最大成分,,,,,,,,是什么呢????????

答案是:网络。。。。。。。。

一万甚至几万块的GPU,,,,,,,,作为推算集群,,,,,,,,与存储集群进行数据交互,,,,,,,,必要极大的带宽。。。。。。。。此表,,,,,,,,GPU集群进行训练推算时,,,,,,,,都不是独立的,,,,,,,,而是混归并行。。。。。。。。GPU之间,,,,,,,,有大量的数据互换,,,,,,,,也必要极大的带宽。。。。。。。。

若是网络不给力,,,,,,,,数据传输慢,,,,,,,,GPU就要期待数据,,,,,,,,导致利用率降落。。。。。。。。利用率降落,,,,,,,,训练功夫就会增长,,,,,,,,成本也会增长,,,,,,,,用户履历会变差。。。。。。。。

业界已经做过一个模型,,,,,,,,推算出网络带宽吞吐能力、通讯时延与GPU利用率之间的关系,,,,,,,,如下图所示:

全发国际(中国)有限公司官网

各人能够看到,,,,,,,,网络吞吐能力越强,,,,,,,,GPU利用率越高;;;;;;;;通讯动态时延越大,,,,,,,,GPU利用率越低。。。。。。。。

一句话,,,,,,,,没有好网络,,,,,,,,别玩大模型。。。。。。。。

怎么的网络,,,,,,,,能力支持AIGC的运行????????

为了应对AI集群推算对网络的调整,,,,,,,,业界也是想了不少法子的。。。。。。。。

传统的应对战术,,,,,,,,重要是三种:Infiniband、RDMA、框式互换机。。。。。。。。我们别离来单一相识一下。。。。。。。。

Infiniband组网

Infiniband(直译为“无限带宽”技术,,,,,,,,缩写为IB)组网,,,,,,,,搞数据通讯的童鞋应该不会陌生。。。。。。。。

这是目前组建高机能网络的最佳蹊径,,,,,,,,带宽极高,,,,,,,,能够实现无拥塞和低时延。。。。。。。。ChatGPT、GPT-4所使用的,,,,,,,,听说就是Infiniband组网。。。。。。。。

若是说Infiniband组网有什么弊端的话,,,,,,,,那就是一个字——贵。。。。。。。。相比传统以太网的组网,,,,,,,,Infiniband组网的成本会贵好几倍。。。。。。。。这项技术比力封关,,,,,,,,业内目前成熟的供给商只有1家,,,,,,,,用户没什么选择权。。。。。。。。

RDMA网络

RDMA的全称是Remote Direct Memory Access(远程直接数据存。。。。。。。。。。。。。。。。它是一种新型的通讯机造。。。。。。。。在RDMA规划里,,,,,,,,利用法式的数据,,,,,,,,不再经过CPU和复杂的操作系统,,,,,,,,而是直接和网卡通讯,,,,,,,,不仅大幅提升了吞吐能力,,,,,,,,也降低了时延。。。。。。。。

全发国际(中国)有限公司官网

RDMA最早提出时,,,,,,,,是承载在InfiniBand网络中的。。。。。。。。此刻,,,,,,,,RDMA逐步移植到了以太网上。。。。。。。。

目前,,,,,,,,高机能网络的主流组网规划,,,,,,,,是基于RoCE v2(RDMA over Converged Ethernet,,,,,,,,基于融合以太网的RDMA)和谈来组建支持RDMA的网络。。。。。。。。

这种规划有两个沉要的搭配技术,,,,,,,,别离是PFC(Priority Flow Control,,,,,,,,基于优先级的流量节造)和ECN(Explicit Congestion Notification,,,,,,,,显式拥塞通知)。。。。。。。。它们是为了预防链路中的拥塞而产生的技术,,,,,,,,但是,,,,,,,,频仍被触发,,,,,,,,反而会导致发送端暂停发送,,,,,,,,或降速发送,,,,,,,,进而拉低通讯带宽。。。。。。。。(下文还会提到它们)

框式互换机

国表有部门互联网公司,,,,,,,,寄但愿于利用选取框式互换机(DNX芯片+VOQ技术),,,,,,,,来满足构建高机能网络的需要。。。。。。。。

DNX:broadcom(博通)的一个芯片系列

VOQ:Virtual Output Queue,,,,,,,,虚构输出队列

这种规划看似可行,,,,,,,,但也面对以下几个挑战。。。。。。。。

首先,,,,,,,,框式互换机的扩大能力通常。。。。。。。;;;;;;;;虼笥紫薅攘俗畲蠖丝谑,,,,,,,,如想做更大规模的集群,,,,,,,,必要横向扩大多个机框。。。。。。。。

其次,,,,,,,,框式互换机的设备功耗大。。。。。。。;;;;;;;;蚰谙呖ㄐ酒abric芯片、电扇等数量多多,,,,,,,,单设备的功耗超过2万瓦,,,,,,,,有的甚至3万多瓦,,,,,,,,对机柜供电能力要求太高。。。。。。。。

第三,,,,,,,,框式互换机的单设备端口数量多,,,,,,,,故障域大。。。。。。。。

基于以上原因,,,,,,,,框式互换机设备只适合幼规模部署AI推算集群。。。。。。。。

到底什么是DDC

前面说的都是传统规划。。。。。。。。既然这些传统规划不能,,,,,,,,那当然就要想新法子。。。。。。。。

因而,,,,,,,,一种名叫DDC的全新解决规划,,,,,,,,闪亮登场了。。。。。。。。

DDC,,,,,,,,全名叫做Distributed Disaggregated Chassis(散布式分散式机箱)。。。。。。。。

它是前面框式互换机的“分拆版”。。。。。。。。???????蚴交セ换睦┐竽芰Σ患,,,,,,,,那么,,,,,,,,我们索性把它给拆开,,,,,,,,将一个设备造成多个设备,,,,,,,,不就OK了????????

全发国际(中国)有限公司官网

框式设备,,,,,,,,通常分为互换网板(背板)和业务线卡(板卡)两部门,,,,,,,,相互之间用衔接器衔接。。。。。。。。

DDC规划,,,,,,,,将互换网板造成了NCF设备,,,,,,,,将业务线卡造成了NCP设备。。。。。。。。衔接器,,,,,,,,则造成了光纤。。。。。。。。???????蚴缴璞傅闹卫碇澳,,,,,,,,在DDC架构中,,,,,,,,也造成了NCC。。。。。。。。

NCF:Network Cloud Fabric(网络云治理节造平面)

NCP:Network Cloud Packet Processing(网络云数据包处置)

NCC:Network Cloud Controller(网络云节造器)

DDC从集中式造成散布式之后,,,,,,,,扩大能力大大加强了。。。。。。。。它能够凭据AI集群的大幼,,,,,,,,矫捷设计组网规模。。。。。。。。

我们来举两个例子(单POD组网和多POD组网)。。。。。。。。

单POD组网中,,,,,,,,选取96台NCP作为接入,,,,,,,,其中NCP下行共18个400G接口,,,,,,,,掌管衔接AI推算集群的网卡。。。。。。。。上行共40个200G接口,,,,,,,,最大能够衔接40台NCF,,,,,,,,NCF提供96个200G接口,,,,,,,,该规模高低行带宽为超速比1.1:1。。。。。。。。整个POD可支持1728个400G网络接口,,,,,,,,依照一台服务器配8块GPU来推算,,,,,,,,可支持216台AI推算服务器。。。。。。。。

全发国际(中国)有限公司官网

单POD组网

多级POD组网,,,,,,,,规模??????D芄槐涞酶。。。。。。。。

在多级POD组网中,,,,,,,,NCF设备要就义一半的SerDes,,,,,,,,用于衔接第二级的NCF。。。。。。。。所以,,,,,,,,此时单POD选取48台NCP作为接入,,,,,,,,下行共18个400G接口。。。。。。。。

全发国际(中国)有限公司官网

多POD组网

单个POD内,,,,,,,,能够支持864个400G接口(48×18)。。。。。。。。通过横向增长POD(8个),,,,,,,,实现规模扩容,,,,,,,,整体最大可支持6912个400G网络端口(864×8)。。。。。。。。

NCP上行40个200G,,,,,,,,接POD内40台NCF。。。。。。。。POD内NCF选取48个200G接口,,,,,,,,48个200G接口分为12个一组上行到第二级的NCF。。。。。。。。第二级NCF选取40个平面(Plane),,,,,,,,每个平面4台NCF-P,,,,,,,,别离对应在POD内的40台NCF。。。。。。。。

整个网络的POD内实现了1.1:1的超速比(北向带宽大于南向带宽),,,,,,,,而在POD和二级NCF之间实现了1:1的收敛比(南向带宽/北向带宽)。。。。。。。。

全发国际(中国)有限公司官网

DDC的技术特点

站在规模和带宽吞吐的角度,,,,,,,,DDC已经能够满足AI大模型训练对于网络的需要。。。。。。。。

然而,,,,,,,,网络的运作过程是复杂的,,,,,,,,DDC还必要在时延匹涤注负载平衡性、治理效能等方面有所提升。。。。。。。。

基于VOQ+Cell的转发机造,,,,,,,,匹敌丢包

网络在工作的过程中,,,,,,,,可能会出现突发流量,,,,,,,,造成接管端来不及处置,,,,,,,,引起拥塞和丢包。。。。。。。。

为了应对这种情况,,,,,,,,DDC采取了基于VOQ+Cell的转发机造。。。。。。。。

全发国际(中国)有限公司官网

发送端从网络接管到数据包之后,,,,,,,,会分类到VOQ(虚构输出队列)中存储。。。。。。。。

在发送数据包前,,,,,,,,NCP会先发送Credit报文,,,,,,,,确定接管端是否有足够的缓存空间处置这些报文。。。。。。。。

若是接管端OK,,,,,,,,则将数据包吩飕成Cells(数据包的幼切片),,,,,,,,并且动态负载平衡到中央的Fabric节点(NCF)。。。。。。。。

若是接管端临时没能力处置报文,,,,,,,,报文会在发送端的VOQ中暂存,,,,,,,,并不会直接转发到接管端。。。。。。。。

在接管端,,,,,,,,这些Cells会进行沉组和存储,,,,,,,,进而转发到网络中。。。。。。。。

切片后的Cells,,,,,,,,将选取轮询的机造发送。。。。。。。。它可能充分利用到每一条上行链路,,,,,,,,确保所有上行链路的传输数据量近似相称。。。。。。。。

全发国际(中国)有限公司官网

轮询机造

这样的机造,,,,,,,,充分利用了缓存,,,,,,,,能够大幅度削减丢包,,,,,,,,甚至不会产生丢包情况。。。。。。。。数据沉传削减了,,,,,,,,整体通讯时延更不调换低,,,,,,,,从而能够提高带宽利用率,,,,,,,,进而提升业务吞吐效能。。。。。。。。

PFC单跳部署,,,,,,,,预防死锁

前面我们提到,,,,,,,,RDMA无损网络中引入了PFC(基于优先级的流量节造)技术,,,,,,,,进行流量节造。。。。。。。。

单一来说,,,,,,,,PFC就是在一条以太网链路上创建 8 个虚构通路,,,,,,,,并为每条虚构通路指定相应优先级,,,,,,,,允许单独暂停和沉启其中肆意一条虚构通路,,,,,,,,同时允许其它虚构通路的流量无中断通过。。。。。。。。

全发国际(中国)有限公司官网

PFC能够实现基于队列的流量节造,,,,,,,,但是,,,,,,,,它也存在一个问题,,,,,,,,那就是死锁。。。。。。。。

所谓死锁,,,,,,,,就是多个互换机之间,,,,,,,,由于环路等原因,,,,,,,,同时出现了拥塞(各自端口缓存亏损超过了阈值),,,,,,,,又都在期待对方开释资源,,,,,,,,从而导致的“僵持状态”(所有互换机的数据流永远梗塞)。。。。。。。。

DDC的组网下,,,,,,,,就不存在PFC的死锁问题。。。。。。。。由于,,,,,,,,站在整个网络的角度,,,,,,,,所有NCP和NCF能够当作一台设备。。。。。。。。对于AI服务器来说,,,,,,,,整个DDC,,,,,,,,就是一个互换机,,,,,,,,不存在多级互换机。。。。。。。。所以,,,,,,,,就不存在死锁。。。。。。。。

全发国际(中国)有限公司官网

另表,,,,,,,,凭据DDC的数据转发机造,,,,,,,,可在接口处部署ECN(显式拥塞通知)。。。。。。。。

ECN机造下,,,,,,,,网络设备一旦检测到RoCE v2流量出现了拥塞(内部的Credit缓和存机造无法支持突发流量),,,,,,,,就会向服务器端发送CNP(Congestion Notification Packets,,,,,,,,拥塞通知报文),,,,,,,,要求降速。。。。。。。。

散布式OS,,,,,,,,提升靠得住性

最后再看看治理节造平面。。。。。。。。

前面我们提到,,,,,,,,在DDC架构中,,,,,,,,框式设备的治理职能造成了NCC(网络云节造器)。。。。。。。。NCC极度沉要,,,,,,,,若是选取单点式的方式,,,,,,,,万一出现问题,,,,,,,,就会导致整网故障。。。。。。。。

为了预防出现这样的问题,,,,,,,,DDC能够取缔NCC的集中节造面,,,,,,,,构建散布式OS(操作系统)。。。。。。。。

基于散布式OS,,,,,,,,能够基于SDN运维节造器,,,,,,,,通过尺度接口(Netconf、GRPC等)配置治理设备。。。。。。。。这样的话,,,,,,,,每台NCP和NCF独立治理,,,,,,,,有独立的节造面和治理面,,,,,,,,大大提升了系统的靠得住性,,,,,,,,也越发便于部署。。。。。。。。

DDC的商用进展

综上所述,,,,,,,,相对传统组网,,,,,,,,DDC在组网规模、扩大能力、靠得住性、成本、部署速度方面,,,,,,,,占有显著优势。。。。。。。。它是网络技术升级的产品,,,,,,,,提供了一种颠覆原有网络架构的思路,,,,,,,,能够实现网络硬件的解耦、网络架构的统一、转发容量的扩大。。。。。。。。

业界已经使用OpenMPI测试套件进行过框式设备和传统组网设备的对比仿照测试。。。。。。。。测试结论是:在All-to-All场景下,,,,,,,,相较于传统组网,,,,,,,,框式设备的带宽利用率提升了约20%(对应GPU利用率提升8%左右)。。。。。。。。

正是由于DDC的显著能力优势,,,,,,,,此刻这项技术已经成为行业的沉点发展方向。。。。。。。。例如全发国际网络,,,,,,,,他们就率先推出了两款可交付的DDC产品,,,,,,,,别离是400G NCP互换机——RG-S6930-18QC40F1,,,,,,,,以及200G NCF互换机——RG-X56-96F1。。。。。。。。

全发国际(中国)有限公司官网

RG-S6930-18QC40F1互换机的高度为2U,,,,,,,,提供18个400G的面板口,,,,,,,,40个200G的Fabric内联口,,,,,,,,4个电扇和2个电源。。。。。。。。

RG-X56-96F1互换机的高度为4U,,,,,,,,提供96个200G的Fabric内联口,,,,,,,,8个电扇和4个电源。。。。。。。。

据悉,,,,,,,,全发国际网络会持续研发,,,,,,,,持续推出更多适合智算中心网络场景的产品。。。。。。。。

最后的话

AIGC的崛起,,,,,,,,已经掀起了互联网行业的新一轮技术革命。。。。。。。。

我们能够看到,,,,,,,,越来越多的企业,,,,,,,,在参与这个赛路,,,,,,,,参加角逐。。。。。。。。这意味着,,,,,,,,网络基础设施的升级,,,,,,,,火烧眉毛。。。。。。。。

DDC的出现,,,,,,,,将大幅提升网络基础设施的能力,,,,,,,,不仅能够有效应对AI革命对网络基础设施提出的挑战,,,,,,,,更将助力整个社会的数字化转型,,,,,,,,加快人类数智时期的全面到来。。。。。。。。

关注全发国际
关注全发国际官网微信
随时相识公司最新动态
全发国际(中国)有限公司官网

返回顶部

收起
全发国际(中国)有限公司官网 文档AI副手
全发国际(中国)有限公司官网 文档评价
该资料是否解决了您的问题????????
您对当前页面的中意度若何????????
不咋滴
极度好
您中意的原因是(多。。。。。。。。???????
您对文档是否还有其它的问题或建议????????
为尽快解决问题,,,,,,,,请您留下联系方式以便回复
邮箱
手机号
感激您的反。。。。。。。。
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】【sitemap】