全发国际

620 点全场景落地 丨 半导体大厂熙泰科技的云桌面安全与提效实战分享
预约直播
AI时期,,,,,,,,医疗网络怎么建 丨 全发国际医疗极简以太彩光双超融合网络解决规划颁布
预约直播
全发国际(中国)有限公司官网
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
全发国际(中国)有限公司官网

您订阅的产品有更新,,,,,,,,请实时查阅

查看详情
全发国际(中国)有限公司官网 全发国际(中国)有限公司官网

解密DeepSeek-V3推理网络:MoE架构若何沉构低时延、高吞吐需要? ??? ???

DeepSeek-V3颁布推动散布式推理网络架构升级,,,,,,,,MoE模型引入大规模专家并行通讯,,,,,,,,推理流量特点显著变动,,,,,,,,Decode阶段对网络时度敏赣祝。。。。。网络需保险低时延与高吞吐,,,,,,,,通过端网协同负载平衡与拥塞节造技术优化机能。。。。。。高效运维实现故障急剧定位与业务高可用,,,,,,,,单轨双平面与Shuffle多平面组网规划在低成本下满足高机能推理需要,,,,,,,,为大规模MoE模型部署提供主题网络支持。。。。。。

  • 全发国际(中国)有限公司官网

    颁布功夫:2025-10-27

  • 全发国际(中国)有限公司官网

    点击量:

  • 全发国际(中国)有限公司官网

    点赞:

分享至

全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网

我想评论

一、推理场景和MoE模型引入网络新诉求

2025岁首,,,,,,,,DeepSeek-V3颁布,,,,,,,,迅速引发国内表的宽泛关注和部署热潮。。。。。。作为主题基础设施之一,,,,,,,,散布式推理网面对全新的需要。。。。。。整体来看,,,,,,,,推理与训练的流量差距、MoE模型架构的引入以及DeepSeek开源技术规划等多沉成分,,,,,,,,影响了网络建设的方向和要求。。。。。。

传统浓密模型的训练与推理流量中,,,,,,,,95%以上为Tensor Parallel(TP)通讯,,,,,,,,重要在机内高带宽域通过all-reduce实现,,,,,,,,机表低带宽域仅在同号卡间执行低流量的数据并行(DP)和流水线并行(PP)通讯。。。。。。而DeepSeek选取的MoE(Mixture of Experts)模型架构显著扭转了流量特点。。。。。。训练和推理阶段均不选取TP通讯,,,,,,,,取而代之的是大规模专家并行(EP)通讯,,,,,,,,训练阶段EP流量占比超过95%,,,,,,,,推理阶段则达到100%。。。。。。EP通讯逾越多个凹凸带宽域,,,,,,,,且选取all-to-all通讯模式,,,,,,,,通讯结构复杂且流量巨大,,,,,,,,对网络机能提出了更高、更差距化的要求。。。。。。

DeepSeek模型参数规模达到6710亿,,,,,,,,在推理部署中引入了PD分离和大规模EP并行,,,,,,,,推动满血版高机能推理走向散布式。。。。。。相比传统单机推理,,,,,,,,散布式推理带来了显著差距,,,,,,,,使得推理流量模式与散布式训练更为靠近,,,,,,,,但两者在流量特点上依然存在显著区别。。。。。。

通讯流量可由以下公式估算:(minibatch大幼 × 高低文长度 × 暗藏层维度)× 节点数 × (dispatch_alltoall通讯次数 × FP8字节数 + combine_alltoall通讯次数 × BF16字节数)× GPU掌管的层数。。。。。。下表统计重要EP流量作为参考。。。。。。

总通讯量 单次通讯量
训练 315GB

dispatch:112MB

combine:224MB

推理Prefill 57.09GB

dispatch:168MB

combine:336MB

推理Decode 1218MB

dispatch:3.5MB

combine:7MB

训练场景流量模式固定且明确,,,,,,,,单次迭代总流量高达315GB,,,,,,,,单次EP通讯流量约112MB。。。。。。

推理场景流量受用户输入影响,,,,,,,,颠簸较大。。。。。。Prefill阶段以4K高低文、batch size为4推算流量大幼,,,,,,,,单次迭代总流量约57.09GB,,,,,,,,单次通讯流量与训练相近;;;;; ;;;Decode阶段以128并发推算,,,,,,,,单次迭代流量显著降低至约1.2GB,,,,,,,,单次通讯流量仅为几MB,,,,,,,,Prefill与Decode阶段流量差距显著。。。。。。

基于以上全新且复杂的网络需要,,,,,,,,深刻鉴别和分析DeepSeek推理网络的关键技术,,,,,,,,是保险推理高机能、低成本与高靠得住性的关键。。。。。。下文我们将从低网络时延、高效网络运维和低成本组网角度,,,,,,,,发展介绍DeepSeek推理网络关键技术。。。。。。

二、低时延网络助力推理高吞吐

凭据上述流量分析,,,,,,,,Decode阶段的单次通讯流量仅为3.5MB/7MB。。。。。。结合DeepSeek官方开源通讯库DeepEP的机能,,,,,,,,当前场景下Decode阶段的dispatch通讯时长在100us内,,,,,,,,combine通讯时长在200us内。。。。。。Decode阶段的SLO通常要求低于50ms,,,,,,,,但EP通讯次数高达116次,,,,,,,,每次通讯城市导致时延叠加,,,,,,,,因而对网络时延提出了很高的要求。。。。。。综上,,,,,,,,在Decode阶段,,,,,,,,很少的单次通讯流量、很短的通讯时长、很高的SLO要求都对网络提出了较低的时延需要。。。。。。

全发国际(中国)有限公司官网

H800网络时延对Decode吞吐的影响

全发国际(中国)有限公司官网

H20网络时延对Decode吞吐的影响

上图是对4K/1K高低文,,,,,,,,1K输出的Decode场景,,,,,,,,在H800/H20设备下,,,,,,,,以128 batch作为场景,,,,,,,,进行的网络时延对Decode吞吐影响仿真。。。。。。如图所示,,,,,,,,当网络侧产生1ms的时延增长时,,,,,,,,无论是H800还是H20,,,,,,,,在分歧的高低文场景下,,,,,,,,吞吐城市产生巨大影响,,,,,,,,吞吐降落幅度高达80%左右,,,,,,,,险些已经直接导致当前Decode节点不成用。。。。。。当网络上产生100us的时延时,,,,,,,,4K高低文场景下,,,,,,,,吞吐降落可能达到20%+。。。。。。由此可见,,,,,,,,Decode节点对网络时延的敏感度很高。。。。。。在DeepSeek大规模EP并行all-to-all通讯模式下,,,,,,,,网络时延的重要影响成分是负载平衡和拥塞节造:

全发国际(中国)有限公司官网

如上图所示,,,,,,,,在大规模EP的DeepSeek推理场景,,,,,,,,EP域的通讯可能横跨多个Leaf,,,,,,,,流量走向Spine,,,,,,,,容易产生典型的ECMP哈希不均问题,,,,,,,,导致较高动态时延。。。。。。且DeepSeek的MoE模型推理易产滋事俘间负载不一致和事俘内专家负载不一致问题,,,,,,,,在网络上阐发为流量中大幼流混合。。。。。。该景象更容易加剧ECMP不均导致的动态时延问题,,,,,,,,欠安的负载平衡战术,,,,,,,,在网络上容易引入100us+甚至更高的动态时延。。。。。。如上文分析,,,,,,,,这样的动态时延水平对吞吐的影响可能达到20%+。。。。。。在DeepSeek官方场景中,,,,,,,,选取IB互换机和CX网卡的Adaptive Routing(AR)技术,,,,,,,,有效缓解了ECMP负载不均问题。。。。。。在RoCE环境下,,,,,,,,端网协同的负载平衡规划在如此刻薄的低时延要求下,,,,,,,,是至关沉要的。。。。。。

全发国际(中国)有限公司官网

此表,,,,,,,,MoE模型的大规模专家并行通讯性质上是一种all-to-all模式,,,,,,,,网络中天然存在incast流量。。。。。。合理的拥塞节造战术可能预防因流量降速或PFC(Priority Flow Control)触发而带来的高动态时延,,,,,,,,保险网络时延的不变性和推理机能。。。。。。

三、高效端网运维保险高可用推理业务

全发国际(中国)有限公司官网

慢故障、hang异常

全发国际(中国)有限公司官网

链路故障

随着DeepSeek推理引入大规模专家并行(EP),,,,,,,,散布式推理集群面对与训练集群类似的故障挑战。。。。。。凭据Meta公开的钻研数据,,,,,,,,以1024卡集群为例,,,,,,,,均匀每7.9幼时会产生一次故障。。。。。。结合故障对推理的影响,,,,,,,,可将故障类型综合为三类:

慢节点异常:故障产生后推理工作不中断,,,,,,,,但部门节点或阶段机能降落,,,,,,,,导致整体推理被拖慢,,,,,,,,阐发为慢节点效应。。。。。。

Hang异常:故障导致推理长功夫卡顿于某一阶段,,,,,,,,工作无法持续推动,,,,,,,,但整体推理仍未中断。。。。。。

链路故障:链路中断直接导致整个推理事俘退出。。。。。。

在慢节点异常和短功夫Hang异常场景下,,,,,,,,固然推理工作仍在运行,,,,,,,,但推理机能显著受损,,,,,,,,TTFT(Time To First Token)和TPOT(Time Per Output Token)指标显著恶化,,,,,,,,吞吐量可能降落50%以上。。。。。。因而,,,,,,,,针对慢故障和Hang异常的实时监控、急剧定位与排查,,,,,,,,对于保险推理机能拥有沉要价值。。。。。。

而在长功夫Hang异;;;;; ;;;蛄绰饭收系贾峦评硎路苯油顺龅那榭鱿,,,,,,,,业务影响更为严沉。。。。。。对于大规模事俘部署环境,,,,,,,,可通过要求急剧切换至其他健全事俘,,,,,,,,虽可能就义部门用户履历,,,,,,,,但能保险业务陆续性。。。。。。相较之下,,,,,,,,少量事俘部署(如单个Decode事俘)产生故障时,,,,,,,,往往直接导致业务中断,,,,,,,,严沉影响不变性和用户履历。。。。。。因而幼规模场景下,,,,,,,,故障的定位、逃生和躲避,,,,,,,,是保险业务可用性的关键伎俩。。。。。。

四、高性价比推理组网压榨百万token成本

1.双口网卡双平面组网:

全发国际(中国)有限公司官网

单轨双平面组网

基于上述对网络低时延和高靠得住性的需要,,,,,,,,选取如图所示的单轨双平面组网规划,,,,,,,,可能最大水平保险机能与靠得住性。。。。。。相比传统CLOS架构,,,,,,,,该规划在性价譬喻面更具优势。。。。。。具体特点如下:

优势:

网络结构简洁:流量集中于Leaf互换机,,,,,,,,降低跨互换机通讯复杂度,,,,,,,,显著削减时延。。。。。。

成本效益高:支持铜缆互联,,,,,,,,削减互换机数量,,,,,,,,整体网络投入更低。。。。。。

时延低:数据面链路最长仅为2跳,,,,,,,,最大跳数为1跳,,,,,,,,确保低时延传输。。。。。。

流控需要低:无负载平衡问题,,,,,,,,流量走单一蹊径,,,,,,,,简化流控设计。。。。。。

易于扩大:新增节点无需增长二层网络,,,,,,,,支持集群横向扩大。。。。。。

Bond适配性强:选取bond双平面组网提升网络靠得住性,,,,,,,,且由于无二层组网,,,,,,,,bond规划不会带来额表互换机成本。。。。。。

劣势:

矫捷性受限:Prefill或Decode事俘不成跨Leaf部署,,,,,,,,单事俘最大规模受限于256卡。。。。。。

兼容性不及:组网针对推理流量个性优化,,,,,,,,难以兼容训练与推理一体化场景。。。。。。

KV Cache传输依赖存储网:在选取PD分离部署时,,,,,,,,若是存在跨Leaf的PD事俘,,,,,,,,则必须建设存储网络以支持KV Cache传输。。。。。。

2.Shuffle多平面组网:

全发国际(中国)有限公司官网

基于双网口网卡的双平面组网规划,,,,,,,,单Pod最大规模受限于256卡,,,,,,,,导致矫捷性不及。。。。。。为突破这一瓶颈,,,,,,,,在Server与互换机之间引入Shuffle(光交叉盒),,,,,,,,实现物理层面的分光。。。。。。依附400Gbps网卡和TH5芯片互换机,,,,,,,,组网规划升级为四平面,,,,,,,,单Pod最大规模扩大至512卡,,,,,,,,满足绝大无数推理部署需要。。。。。。此规划支持更大规模的EP并行和PD事俘数量增长,,,,,,,,且PD事俘无需跨Pod调度,,,,,,,,大幅提升Pod内组网矫捷性,,,,,,,,显著降低对KV Cache存储网络的依赖。。。。。。

将来,,,,,,,,随着800Gbps网卡和TH6芯片互换机的利用,,,,,,,,Shuffle多轨规划可拓展至8轨。。。。。。在保障单GPU享有800Gbps带宽的前提下,,,,,,,,单Pod最大规模 ??? ???衫┐笾1024卡,,,,,,,,满足超大规模推理服务需要。。。。。。该规划在无二层组网架构下,,,,,,,,依然提供很高的PD分离部署矫捷性,,,,,,,,PD事俘无需跨Pod调度,,,,,,,,也无需KV Cache传输专用网络,,,,,,,,实现了卓越的性价迸纂机能。。。。。。

总结

DeepSeek MoE模型的散布式推理部署带来了推理网络架构和机能保险的全新挑战。。。。。。推理阶段的通讯模式和流量特点与传统训练存在显著差距,,,,,,,,尤其是Decode阶段对网络时延敏感,,,,,,,,要求网络具备低时延和高吞吐能力。。。。。。端网协同的负载平衡算法和拥塞节造技术是保险网络机能的关键。。。。。。与此同时,,,,,,,,推理业务高可用性要求美满的故障监控、急剧定位和故障逃生战术。。。。。。针对这些需要,,,,,,,,设计简洁高效且具备高靠得住性的单轨双平面组网规划,,,,,,,,可能在保障机能的同时降低成本。。。。。。将来,,,,,,,,随着DeepSeek及类似大规模MoE模型的宽泛部署,,,,,,,,推理网络的优化和创新将成为主题竞争力。。。。。。

有关标签:

全发国际(中国)有限公司官网 全发国际(中国)有限公司官网

点赞

更多技术博文

任何必要,,,,,,,,请联系全发国际

全发国际(中国)有限公司官网

返回顶部

收起
全发国际(中国)有限公司官网 文档AI副手
全发国际(中国)有限公司官网 文档评价
该资料是否解决了您的问题? ??? ???
您对当前页面的中意度若何? ??? ???
不咋滴
极度好
您中意的原因是(多选!!!。。 ??? ???
您对文档是否还有其它的问题或建议? ??? ???
为尽快解决问题,,,,,,,,请您留下联系方式以便回复
邮箱
手机号
感激您的反馈!!!。。
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】【sitemap】