全发国际

620 点全场景落地 丨 半导体大厂熙泰科技的云桌面安全与提效实战分享
预约直播
AI时期,,,,,,,,医疗网络怎么建 丨 全发国际医疗极简以太彩光双超融合网络解决规划颁布
预约直播
全发国际(中国)有限公司官网
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
全发国际(中国)有限公司官网

您订阅的产品有更新,,,,,,,,请实时查阅

查看详情
全发国际(中国)有限公司官网 全发国际(中国)有限公司官网

技术盛宴|浅谈AIGC算力网络中LPO??????榈募际跤攀

有网络的处所就会有光??????榈睦茫,,,,,,那么算力网络中会部署哪种光??????槟??????本文将萦绕光??????槭埽,,,,,,分析传统DSP??????榈闹匾г颍,,,,,,结合LPO技术进行失效能对比分析,,,,,,,,会商LPO??????榈挠攀频氐恪!。。。

  • 全发国际(中国)有限公司官网

    颁布功夫:2024-08-06

  • 全发国际(中国)有限公司官网

    点击量:

  • 全发国际(中国)有限公司官网

    点赞:

分享至

全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网

我想评论

随着AI技术的迅猛发展,,,,,,,,形形色色的AI利用走入各人的工作、进建和生涯傍边,,,,,,,,好比Chatbot(谈天机械人)、虚构主播、AIPC(人为智能幼我电脑,,,,,,,,Artificial Intelligence Personal Computer)等。。。。。为了让用户获取更好的利用履历,,,,,,,,更快地响应时效要求,,,,,,,,必要更好的大说话模型,,,,,,,,更大规模的模型参数量。。。。。

相信各人也关注到,,,,,,,,近期行业颁布的Llama 3.1 模型,,,,,,,,参数规模已达到惊人的4050亿。。。。。

如此重大的模型训练离不开超大规模智算中心的支持,,,,,,,,近期马斯克在社交平台上颁发:xAI公司已经起头在超等推算中心的“Supercluster”进行训练,,,,,,,,该集群由10万个液冷H100 GPU组成,,,,,,,,10万张GPU算力卡的互联必要高速网络通路。。。。。

随着智算中心集群规模的不休扩张,,,,,,,,光市场已经占据数据中心越来越多的份额。。。。。在100G时期,,,,,,,,光??????楹屯绲谋壤嘉1:1; ;;;;到了400G时期,,,,,,,,光??????楹屯绲谋壤湮7:3,,,,,,,,光??????樵诩褐械某烈圆谎远鳌!。。。本文将萦绕光??????槭埽,,,,,,分析传统DSP??????榈闹匾г颍,,,,,,结合LPO技术进行失效能对比分析,,,,,,,,会商LPO??????榈挠攀频氐恪!。。。

 

一、算力网络中光??????榈慕

谈到光??????楦魅瞬换崮吧,,,,,,有网络的处所就会有光??????榈睦谩!。。。那么算力网络中会部署哪种光??????槟??????

下图展示了目前智算中心RoCE以太网规划的主流网络架构,,,,,,,,服务器端通过400G高速网卡接入到算力网络中,,,,,,,,搭载51.2T互换芯片的数据中心互换机组成三级架构支持万卡以上的集群规模。。。。。

 

智算中心RoCE以太网规划的主流网络架构

 

不难看出智算中心对??????樗俣鹊囊笠丫锏搅400G,,,,,,,,互换机互联的部门甚至能够思考选取800G互联。。。。。

目前主流51.2T的互换芯片是112G SerDes,,,,,,,,因而互换机侧的400G光??????槎杂κ荙112的封装,,,,,,,,网卡侧目前重要是OSFP的封装,,,,,,,,部署时凭据距离选择对应长度的型号即可。。。。。

 

互换机网卡部署

 

二、DSP光??????楣ぷ鞯览

以400G Q112 VR4??????槲治鯠SP光??????榈墓ぷ鞯览硪约案鞑考的关键作用。。。。。(SR、DR??????榻峁雇即筇逡谎,,,,,,只是所用的电光转换规划分歧,,,,,,,,SR用VCSEL,,,,,,,,DR用EML或者硅光) 

DSP光??????楣ぷ鞯览

 

1、互换芯片发送4*112Gbps PAM4电信号进入光??????橹

2、DSP芯片会将经过的电信号进行沉整形而后发到Driver端

3、Driver作为驱动将电信号传输到激光器处

4、VCSEL激光器把电信号转光信号并发到光纤

5、光信号经过光纤达到对端光??????榈腜D光电二极管阵列后被转换成电信号

6、TIA将转换后的电信号进行信号放大并送到DSP芯片

7、DSP芯片再次将电信号进行沉整型后发送到互换机芯片上

 

三、光??????槭苤副

失效能为何被关注

相较于互换机、服务器等设备,,,,,,,,光??????榈慕峁蛊涫凳潜攘Φヒ坏模,,,,,,但就是如此单一的光??????樵谒懔ν缰幸彩侵凉爻烈拇嬖凇!。。。固然单一??????榈氖鼙攘Φ停,,,,,,但是放在万卡以上的集群中也会被放大数倍。。。。。??????榈氖Щ嵩斐煽隙ǜ怕实墓收喜,,,,,,故障又会导致训练业务的中断,,,,,,,,沉新启动训练必要额表的耗时,,,,,,,,无形中增长了集群的运营成本。。。。。因而光??????榈氖鼙匾黄鞒疗鹄础!。。。

 

失效能指标界说

FIT(Failures In Time)失效能是一个衡量产品或系统在单元功夫内产生故障的频率的指标。。。。。它通常用来描述在一按功夫领域内,,,,,,,,特定数量的产品或系统预计会出现几多次故障。。。。。FIT是一个无穷纲值,,,,,,,,暗示的是每十亿幼时内的故障次数。。。。。例如,,,,,,,,若是一个产品在10亿幼时内产生了100次故障,,,,,,,,那么它的FIT失效能就是100 FIT。。。。。这暗示在观察的功夫段内,,,,,,,,每十亿幼时能够预期会产生100次故障。。。。。

光??????榈氖=??????橹兴性骷失效能的求和,,,,,,,,好比某个光??????榈睦砺凼=155.63FIT,,,,,,,,意味着在十亿幼时内能够预期会产生155.63次失效。。。。。

单一??????椴淮问匾挠资笔=10亿/155.63≈8647744(幼时)换算成一个好理解的方式即为单个??????樵8647744个幼时内会出现一次失效,,,,,,,,单看这个数据感触??????榈目康米⌒约雀撸,,,,,,但放在整个集群中我们来看看具体数据。。。。。

 

光??????槭苤副

 

如图所示,,,,,,,,我们列举了分歧集群规模下所必要的光??????槭恳约八泄饽??????椴淮文??????槭У木嗬牍Ψ颍,,,,,,不难看出这是一个随着??????槭勘浯蠖サ鞯菁醯暮!。。。

单一??????榈氖茉谕蚩ㄒ陨系募汗婺V斜环糯罅耍,,,,,,理论上在32K卡的集群中或许每两天就会产生一次??????槭В,,,,,,这样来看??????榈氖芑故窍嗟敝档霉刈⒌摹!。。。

 

导致光??????槭鼙涠闹匾煞

有两个重要成分会引起失效能变动,,,,,,,,一个是??????槟诓康脑骷数量,,,,,,,,另一个是??????樽陨淼墓ぷ魑露取!。。。

具体变动关系是:

1、??????樵骷越少,,,,,,,,失效能越低

2、??????楣ぷ魑露仍降停,,,,,,失效能越低

 

传统DSP光??????槭芊治

传统DSP??????楣婊谑芊矫婊勾嬖谝韵氯钡悖

1、??????樵骷多、工作温度高:DSP??????椴唤鲇蠨SP芯片,,,,,,,,还蕴含周边的晶体振荡器、Flash、电源等一系列芯片,,,,,,,,且功耗占比超过50%,,,,,,,,会显著提升??????榈墓ぷ魑露取!。。。

2、??????樵骷自身失效能高:DSP??????槿羰茄∪ML或VCSEL规划,,,,,,,,会蕴含多颗分离的III-V族激光器,,,,,,,,而激光器自身的失效能就会偏高。。。。。

基于以上分析能够看到导致DSP??????槭У闹匾蚴瞧骷数量多、工作温度高,,,,,,,,好比DSP及周边芯片、EML/VCSEL激光器等。。。。。要想降低??????榈氖芑故堑么颖驹饩鑫侍猓,,,,,,下面我们来介绍一下LPO(Linear-drive Pluggable Optics)??????楣婊!。。。

 

四、LPO光??????榻饩龉婊

LPO?????? 

LPO?????? 

LPO ??????槿サ袅舜矰SP??????橹械腄SP芯片,,,,,,,,利用互换芯片中DSP进行电信号的处置,,,,,,,,??????榈毖∪⊥ɡ艿腄river和TIA芯片,,,,,,,,并选用相宜的电光转换规划,,,,,,,,即能够实现优异的传输机能。。。。。电光转换部门能够选取VCSEL、EML或者硅光规划,,,,,,,,硅光拥有更好的线性度、更低的电反射。。。。。为了保险供给以及更高的靠得住性,,,,,,,,全发国际网络选取了硅光技术规划。。。。。更多LPO基础概想的介绍能够参考往期文章揭秘智算中心网络建设新利器:LPO技术的出现。。。。。

 

LPO??????槭芊治 

LPO??????槭芊治 

LPO??????槭芊治

 

上述图表展示了400G??????樵谝谎??????楣ぷ魑露55°C情况下,,,,,,,,分歧技术规划的失效能比例关系。。。。?????D芄豢吹皆谝谎??????楣ぷ魑露认拢,,,,,,LPO+硅光规划的失效能更低,,,,,,,,其他规划失效能为LPO+硅光规划的1.31~2.34倍左右。。。。。

这样的对譬喻式是从理论上评估分歧??????榈氖埽,,,,,,因而会节造工作温度维持不变。。。。。而在现实部署中,,,,,,,,LPO+硅光??????榈墓ぷ魑露认嘟嫌贒SP规划会更低,,,,,,,,因而失效能能够得到进一步的降低。。。。。 

壳温对比

 

如上图所示,,,,,,,,在一样的环境温度情况下,,,,,,,,LPO??????榈工作温度比DSP??????橐15°C左右。。。。。 

Radom Failure Rate VS Temperature 

结合上述图表,,,,,,,,能够看到LPO??????槲露却55°C降低到40°C后,,,,,,,,失效能降落了50%,,,,,,,,具备更高的靠得住性。。。。。 

400G DR4/SR4 Radom Failure Rate @ CL=60% 环境温度一样 

从现实部署场景来看,,,,,,,,将分歧技术规划的400G??????榉旁谝谎环境温度下进行对比,,,,,,,,可能看到LPO+硅光规划的失效能得到进一步降低,,,,,,,,这就是??????楣ぷ魑露较低带来的收益。。。。。

 

总结

基于以上理论分析结合现实数据来看,,,,,,,,LPO+硅光的规划相较于其他规划而言失效能是较低的。。。。。主题原因在于以下两点:

1、移除DSP芯片:去掉DSP芯片后能够较大幅度降低??????楣ぷ魑露龋,,,,,,降低因高温给激光器带来的影响。。。。。

2、选取硅光技术:如下图所示,,,,,,,,光电转换部门选取硅光规划后能够让硅光芯片掌管信号调造,,,,,,,,Laser仅必要提供直流光,,,,,,,,无需调造信号。。。。。对比EML规划必要4个激光器以及TEC,,,,,,,,硅光规划的Laser只必要1个,,,,,,,,削减了??????樵骷的数量,,,,,,,,降低失效能。。。。。

 

选取硅光技术 

 

五、LPO光??????榛懿问

只具备更低的??????槭芑共患耙匀肔PO??????榇鍰SP??????椋,,,,,,我们还应评估光??????榈目捎眯裕,,,,,,也就是关注BER(误码率)和SEN(活络度),,,,,,,,这两个指标的机能参数必要能达到和谈门限的尺度。。。。。

 

光??????锽ER&SEN评估步骤 

光??????锽ER&SEN评估步骤 

通过调节光衰减的大幼!。。。,,,,,,得到分歧RX光功率下的BER,,,,,,,,将所有测试了局汇总到一路绘造成BO曲线。。。。。 

全发国际(中国)有限公司官网 

当光功率一向调幼!。。。ㄍ急碇泻嶙晗蜃蟮髡飨颍,,,,,,直到BER蹬宗FEC门限划定的2.4e-4(图表中纵坐标向上调整趋向)时,,,,,,,,纪录此时的光功率就是光??????榈幕盥缍龋⊿EN)。。。。。通常的BER都是在没有加光衰减器的情况下测试的,,,,,,,,即在BER error floor区间测试的了局。。。。。

SEN越幼注明光??????樵侥苋萑谈椎墓夤β剩,,,,,,对现实的部署有比力大的援手,,,,,,,,好比由于接头脏污、发端光功率变幼、光纤接头插损大等会造成光功率变幼的情况。。。。。

 

LPO DR??????榈幕懿问

以下是分歧规划??????樵诔N露滔顺【爸械牟馐允 

全发国际(中国)有限公司官网 

从BER图表数据能够看到以下景象:

1、LPO DR??????榈腂ER和和谈门限相迸仔5个数量级的余量。。。。。

2、LPO DR与DSP+硅光规划的BER参数靠近,,,,,,,,且优于DSP+EML规划 2~3个数量级。。。。。 

全发国际(中国)有限公司官网 

从SEN图表数据看到以下景象:

1、LPO DR??????榈腟EN和和谈门限相迸仔3.5dB的左右余量。。。。。

2、三种规划在SEN参数方面相差不大。。。。。

 

基于以上景象能够得出结论:LPO+硅光机能参数靠近DSP+硅光,,,,,,,,优于DSP+EML规划,,,,,,,,因而能够代替现有的DSP DR规划。。。。。

 

六、LPO光??????榈钠渌找

LPO光??????槌烁呖康米⌒约案呖捎眯哉饬降惚恚,,,,,,在其他维度也具备肯定的价值收益。。。。。

1、更低功耗:去掉DSP芯片后,,,,,,,,光??????榈淖畲蠊哪芄唤档51.3%左右,,,,,,,,低于4W(壳温70℃测试)。。。。。 

LPODR4 VS DSP DR4??????楣亩员

 

2、更低时延:??????橹猩倭薉SP芯片,,,,,,,,削减一跳,,,,,,,,时延能够降低95%,,,,,,,,满足更低延长的利用场景。。。。。 

LPODR4 VS DSP DR4??????槭毖佣员

 

3、优良供给:传统DSP??????榈腄SP芯片和VCSEL激光器目前供给比力严重,,,,,,,,且交期比力长,,,,,,,,大规模交付有供给风险。。。。。LPO??????楣婊サ袅薉SP芯片,,,,,,,,并且选取硅光技术,,,,,,,,预防使用供给严重的DSP芯片和VCSEL芯片,,,,,,,,在肯定水平上躲避了关键器件的供给风险。。。。。

 

七、全发国际LPO光??????椴 

全发国际(中国)有限公司官网 

全发国际(中国)有限公司官网

 

全发国际网络聚焦AIGC算力网络场景规划设计了三款LPO DR的自研光??????椋,,,,,,满足以下三种网络架构的互联需要。。。。。

 

全发国际(中国)有限公司官网

 

目前在共同各大厂进行适配测试工作,,,,,,,,敬请等待。。。。。

全发国际网络,,,,,,,,作为GenAI时期的全栈服务专家,,,,,,,,致力于为企业提供覆盖IaaS到PaaS的全栈产品及解决规划。。。。。全发国际产品覆盖高机能网络与GPU算力优化调度,,,,,,,,旨在通过创新技术解决规划,,,,,,,,援手客户实现出产效能的飞跃与运营成本的优化。。。。。我们坚信,,,,,,,,通过全发国际致力,,,,,,,,可能为客户打造一个越发智能、高效和靠得住的将来。。。。。让我们携手,,,,,,,,共同索求AI时期的每一个机缘。。。。。

全发国际(中国)有限公司官网 全发国际(中国)有限公司官网

点赞

更多技术博文

任何必要,,,,,,,,请联系全发国际

全发国际(中国)有限公司官网

返回顶部

收起
全发国际(中国)有限公司官网 文档AI副手
全发国际(中国)有限公司官网 文档评价
该资料是否解决了您的问题??????
您对当前页面的中意度若何??????
不咋滴
极度好
您中意的原因是(多选!。。。??????
您对文档是否还有其它的问题或建议??????
为尽快解决问题,,,,,,,,请您留下联系方式以便回复
邮箱
手机号
感激您的反馈!。。。
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】【sitemap】