全发国际

620 点全场景落地 丨 半导体大厂熙泰科技的云桌面安全与提效实战分享
预约直播
铸数基 · 智运维 丨 全发国际乐享3.0智能运维解决规划颁布会
预约直播
全发国际(中国)有限公司官网
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
全发国际(中国)有限公司官网

您订阅的产品有更新, ,,,,请实时查阅

查看详情
全发国际(中国)有限公司官网 全发国际(中国)有限公司官网

聊聊新基建之数据中心的网络运维技术

本文安身于新一代25/100G数据中心架构之上, ,,,,分析了目前运维层面的挑战, ,,,,提出了面向网络运维全流程的技术升级, ,,,,针对于流程中的每个环节解说了对应的运维技术。。。。。。。

  • 全发国际(中国)有限公司官网

    颁布功夫:2020-08-13

  • 全发国际(中国)有限公司官网

    点击量:

  • 全发国际(中国)有限公司官网

    点赞:

分享至

全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网

我想评论

本文作者:墨染尘香

全发国际网络互联网系统部解决规划架构师

 

随着互联网业务的迅猛发展, ,,,,数据中心基础架构也在不休向前急剧迭代, ,,,,随之而来的问题是若何治理好这张重大的数据中心网络。。。。。。。本文安身于新一代25/100G数据中心架构之上, ,,,,分析了目前运维层面的挑战, ,,,,提出了面向网络运维全流程的技术升级, ,,,,针对于流程中的每个环节解说了对应的运维技术。。。。。。。但愿能够通过本文给读者一些新的启发和灵感。。。。。。。

 

一、新时期必要新技术

 

随着云推算、AI、大数据等技术的急剧发展, ,,,,一些新的业务状态呈此刻各人的刻下, ,,,,好比今年受疫情影响而爆火的在线教育, ,,,,直播带货等。。。。。。。业务利用的改革得益于基础设施的不休发展和美满, ,,,,上半年“新基建”的概想异;;;;;;;鸨, ,,,,与之有关几大领域的股票也都在疯狂上涨。。。。。。。

 

2020年4月20日上午, ,,,,国度发改委召开4月份例行新闻颁布会, ,,,,初次就“新基建”概想和内涵作出正式的诠释。。。。。。。

 

“新型基础设施是以新发展理想为引领, ,,,,以技术创新为驱动, ,,,,以信息网络为基础, ,,,,面向高质量发展必要, ,,,,提供数字转型、智能升级、融合创新等服务的基础设施系统。。。。。。。”这是发改委给出的“新基建”界说。。。。。。。

 

新型基础设施重要蕴含3个方面内容, ,,,,即信息基础设施、融合基础设施以及创新基础设施。。。。。。。其中信息基础设施中的数据中心作为通讯网络和算力的基础是我们今天要会商的沉点。。。。。。。

 

在上一期的技术盛宴直播活动中已经跟各人分享了数据中心网络架构的演进过程, ,,,,也沉点介绍了新一代数据中心架构的设计建议, ,,,,今天我们聚焦在运维层面来聊一聊新一代数据中心网络运维技术。。。。。。。

 

首先作者以为运维能力和架构一样也是必要更新迭代的, ,,,,原因体此刻两个方面:

 

 

第一是业务驱动, ,,,,25/100G时期的数据中心承载了一些基于RDMA技术的业务, ,,,,好比高机能存储等。。。。。。。这些业务对延时和丢包极度敏感, ,,,,因而要求我们对网络设备要做到越发精密化的状态监控, ,,,,由此可见传统的SNMP技术可能将要被新的运维伎俩所代替。。。。。。。

 

第二是技术驱动, ,,,,主流的25G数据中心架构城市选取单芯片的盒式互换机来进行集群内的组网, ,,,,由于芯片选型产生了变动, ,,,,因而对应的运维技术也会有一些扭转。。。。。。。具体来说就是我们能够享受到新型芯片带来的技术盈利, ,,,,好比基于IFA(IFA, ,,,,In-band Flow Analyzer)的可视化运维能力等。。。。。。。

 

综合以上分析, ,,,,作者以为新一代的数据中心必要新的运维技术来协助我们治理好这张重大的数据中心网络。。。。。。。

 

二、面向网络运维全流程的技术升级

 

我们对好多公司的网络架构以及运维流程做了调研和分析, ,,,,总结了一些通用的问题供各人参考和会商。。。。。。。

 

尺度化的运维流程或许分为五步:网络交付, ,,,,网络配置治理, ,,,,网络监控, ,,,,问题定位和故障处置。。。。。。。下面我们来分析一下每个流程中都有哪些问题亟待解决。。。。。。。

 

 

网络交付

对于配置治理的流程各人并不陌生, ,,,,SSH、Telnet等基于CLI的配置治理。。。。。。。但面向海量的网络设备若是进行沉复性的机械作为, ,,,,往往会亏损各人比力多的精力, ,,,,影响运维的效能。。。。。。。

 

网络监控

在部署基于RDMA的业务之前, ,,,,选取SNMP和谈实现对网络设备的监控是比力主流的做法;;;;;;;但随着RDMA的利用越来越多, ,,,,我们对网络设备运行状态必要把握的越发精密和实时, ,,,,而SNMP以分钟为周期的时效性和可监控的维度、颗粒度城市显得有些不及。。。。。。。

 

问题定位

以丢包问题为例, ,,,,问题定位就是说我们知路了有丢包事务产生, ,,,,必要定位出哪个包丢了, ,,,,在哪里丢的, ,,,,为什么丢。。。。。。。这些信息以前都没有很好的技术伎俩来援手我们鉴别。。。。。。;;;;;;;贓CMP的组网, ,,,,加上网络设备自身又是黑盒, ,,,,我们连数据包真实转发的物理蹊径都无从得知, ,,,,更何况是问题定位呢。。。。。。。

 

故障处置

目前大无数运维模式都属于救火式的被动响应, ,,,,业务先报障, ,,,,运维团队接到CASE后做对应处置, ,,,,对其处置的方式往往是必要依附运维工程师的经验。。。。。。。在人为智能急剧发展的时期, ,,,,若是还一味的依附人为来解决问题, ,,,,是不是有些不够智能呢??????? ?

 

综合以上的分析, ,,,,我们在整体运维流程的基础上进行了面向网络运维的全方位技术升级。。。。。。。

 

在思考成本和效能的前提下, ,,,,我们在每个运维流程中都利用了新的技术来解决新时期下的新问题。。。。。。。

 

全发国际(中国)有限公司官网

图1 运维全流程与运维新技术的对应关系

 

下面我们逐一分析在分歧运维流程中, ,,,,我们该当选取哪些新的运维技术来援手我们更有效地治理好这张重大的数据中心网络。。。。。。。

 

三、网络上线交付

 

 

零配置自动部署治理

(ZAM, ,,,,

Zero-configuration Automatic Manage)

 

上文提到在网络初始化交付环节中存在大规模交付的效能问题, ,,,,那么利用什么技术能够提高这项工作的效能呢??????? ?

 

ZAM零配置自动部署治理技术能够很好的解决这个问题。。。。。。。

 

互换机到货装置上架并加电后, ,,,,鉴别到空配置会自动进入ZAM模式, ,,,,通过DHCP的两个Option字段获取到TFTP的Server地址以及要下载的剧本文件。。。。。。;;;;;;;谧陨淼腟N码获取到属于自身的版本、补丁、数据配置, ,,,,自动沉启后, ,,,,能够分钟级实现整机房的网络设备交付。。。。。。。

 

在网络上线交付环节利用ZAM技术大大降低了对人的依赖, ,,,,提高正确率的同时, ,,,,节约了人为刷版本、刷配置的功夫, ,,,,是满足急剧交付的沉要伎俩。。。。。。。

 

全发国际(中国)有限公司官网

 

图2 零配置自动部署治理技术流程

 

四、网络配置与治理

 

 

Ansible

 

网络承载的业务不会是至死不变的, ,,,,为了满足复杂多样的需要可能会进行业务的调整调换。。。。。。。面对业务调换, ,,,,往往必要运维工程师同时操作大量的网络设备, ,,,,此时若是依附工程师逐台登陆设备下发号令, ,,,,大量的沉复性工作一方面会导致运维效能低下, ,,,,另一方面也很难预防产生一些报答配置失误, ,,,,因而必要一种便捷的运维治理工具援手工程师解决批量配置治理网络设备的问题。。。。。。。

 

社区中开源的运维治理工拥有好多, ,,,,都能够援手运维人员批量实现特定工作, ,,,,削减沉复性工作, ,,,,好比Puppet、SaltStack、Ansible等。。。。。。。在对比了这三个运维治理工具之后, ,,,,我们发现Ansible越发轻量化, ,,,,更容易被宽泛利用起来。。。。。。。

 

全发国际(中国)有限公司官网

 

图3 运维治理工具对比

 

从上述对比表中, ,,,,我们不难发现Ansible的技术特点:

 

 

无客户端

这是Ansible被宽泛利用的一个沉要原因, ,,,,被管设备上(如互换机)只必要支持SSH和Python2.5以上版本即可, ,,,,不必要额表依照Ansible的客户端进行适配;;;;;;;

 

??????? ?榛

Ansible也能够视作没有服务端, ,,,,我们能够通过挪用特定??????? ?, ,,,,实现特定工作;;;;;;;

 

安全

基于OpenSSH的实现, ,,,,加密远程传输中的数据;;;;;;;

 

支持Playbooks编排工作

这个是Ansible的一大特色, ,,,,Playbooks能够援手运维人员将复杂工作碎片化, ,,,,且可能进行批量地部署复杂工作。。。。。。。Playbooks的编写也基于易读的YAML语法, ,,,,操作容易。。。。。。。

 

五、网络精密化监控

 

 

gNMI

(gRPC Network Management Interface)

 

提到网络状态监控, ,,,,相信各人脑海中首吓卓现的就是SNMP技术。。。。。。。简直, ,,,,SNMP作为传统的网络监控伎俩已经被各人利用了好多年, ,,,,但面对高机能推算、大数据、AI等业务就会有些力不从心。。。。。。。

 

首先从业务特点和需要来看, ,,,,高带宽业务会出现微突发的景象, ,,,,因而必要我们可能实时地监控设备的运行状态。。。。。。。好比RDMA业务, ,,,,必要对关键信息做监控, ,,,,缓存队列等实时状态数据。。。。。。。

 

因而我们建议选取gRPC框架实现对网络设备的精密化监控。。。。。。。

 

全发国际(中国)有限公司官网

 

图4 gRPC工作流程

 

gRPC是谷歌颁布的基于HTTP2.0承载的高机能开源软件框架, ,,,,提供了支持多种编程说话的治理网络配置和纳管的方式。。。。。。??????? ?词垢魅烁ㄒ挥谝滴癫忝婺谌, ,,,,削减对底层和谈框架的关注。。。。。。。gRPC选取了ProtoBuffer(PB)来做数据的序列化与反序列化封装, ,,,,用HTTP 2.0作为数据传输和谈。。。。。。。

 

gRPC的传输效能极度高, ,,,,也得益于这两大主题技术。。。。。。。

 

Protocol Buffers:高效的数据体式, ,,,,传送二进造码, ,,,,亏损少, ,,,,传输快

 

HTTP2.0:多路复用衔接, ,,,,二进造帧传输, ,,,,首部压缩

 

在网络精密化监控这一环节中, ,,,,越来越多的客户起头利用gRPC来统一运维接口, ,,,,拉齐设备的能力个性, ,,,,提升效能, ,,,,越发自动的感知网络状态, ,,,,提早发现问题, ,,,,防患于未然。。。。。。。关于gRPC技术的更具体介绍, ,,,,能够查阅前几期的技术盛宴文章, ,,,,由于篇幅的原因, ,,,,作者在此不做深刻发展。。。。。。。

 

六、问题定位

 

 

带内流量分析(IFA, ,,,,In-band Flow Analyzer)

 

网络运维流程中辣手环节就是故障问题的定位。。。。。。。

 

以RDMA业务为例, ,,,,该业务特点是对延时和丢包极其敏感, ,,,,一旦产生了丢包就会大大降低业务机能, ,,,,影响很大。。。。。。。因而我们除了可能感知端到端的延时, ,,,,还必要能检测到异常抖动, ,,,,知路在哪一跳出现了异常。。。。。。。

 

而在当前的架构下, ,,,,网络中存在了大量的蹊径, ,,,,每个业务流在每跳具体转发到哪个物理端口上, ,,,,依赖芯片Hash(哈希)的了局, ,,,,这个对运维来说是不直观的, ,,,,我们但愿给定一个业务流瞬间就知路每跳选择了哪个物理接口。。。。。。。

 

基于上述业务诉求, ,,,,IFA技术的利用给宽大运维同学带来了福利。。。。。。。它能够用来精确确定特定流量的蹊径及转发时延等信息, ,,,,并封装成UDP报文发送给服务器进行分析。。。。。。。

 

全发国际(中国)有限公司官网

 

图5 IFA技术道理

 

具体实现:

在入口首跳设备上进行指定会话的鉴别, ,,,,通过采样后, ,,,,起头插入INT头部;;;;;;;

后续转发节点插入Metadata数据, ,,,,蕴含设备id、入出端口、功夫戳等;;;;;;;

尾跳设备沉新机关UDP报文, ,,,,并把采样报文封装到UDP报文的payload中, ,,,,而后把UDP报文上送到监控服务器上。。。。。。。输入文字

最终IFA的部署, ,,,,能够通例的日??????? ?, ,,,,但是也能够针对产生故障时按需挪用。。。。。。。

 

一些敏感的读者看到这里会提出一个疑难, ,,,,RDMA业务既然对于蹊径和丢包敏感, ,,,,那么我们只上送那些蹊径产生变动以及功夫超过阈值的报文到服务器, ,,,,再加以分析处置不就能够吗??????? ?

 

全发国际(中国)有限公司官网

 

图6网络流量分析技术流程

 

没错, ,,,,若是将报文都上送服务器的确会额表增长了服务器成本, ,,,,不利于整网TCO优化, ,,,,这种本末颠倒的做法可能会直接导致IFA技术无法落地利用。。。。。。。

 

因而我们必要在流量达到服务器之前做一级过滤, ,,,,将那些蹊径和延使佚常的报文都过滤掉, ,,,,只上送异常报文到分析服务器, ,,,,就能够大大降低了服务器的压力。。。。。。。在这个过滤处置环节, ,,,,我们建议选取基于可编程芯片的互换机来实现, ,,,,因其壮大的硬件处置能力能够获得更好的价值收益。。。。。。。

 

全发国际(中国)有限公司官网

 

图7 基于可编程网元的网络可视化规划

 

六、故障处置

 

基于意图的网络(IBN, ,,,,Intent-based Network)

 

谈到故障处置, ,,,,我们必要先分析一下目前的运维模式。。。。。。。通常对于故障的处置流程都是吓咨业务方提交Case报障, ,,,,运维团队在系统上接到Case再去定位问题, ,,,,分析原因, ,,,,解决问题, ,,,,属于被动的救火式运维。。。。。。。婆宗业务的垂危性, ,,,,有的时辰会让运维工作陷入很大的压力傍边。。。。。。。

 

基于意图网络的智能分析平台能够很好的援手我们扭转目前的运维模式, ,,,,化被动为自动。。。。。。。

 

全发国际(中国)有限公司官网

图8 智能分析平台架构

 

该平台内置多个??????? ?, ,,,,蕴含数据采集平台、AI引擎、大数据分析平台以及智能分析器。。。。。。??????? D芄皇迪滞缂袄每墒踊, ,,,,问题分析, ,,,,故障预测等职能。。。。。。。

 

针对问题分析这一职能, ,,,,能够援手我们鉴别三大类故障, ,,,,其中蕴含接入类、利用类以及网元类。。。。。。;;;;;;;谖侍獾姆治, ,,,,该平台也会提出调优及处置建议, ,,,,援手我们急剧解决问题, ,,,,复原业务。。。。。。。

 

全发国际(中国)有限公司官网

 

图9 基于IBN的故障自动鉴别

 

关于IBN的具体内容, ,,,,将来会单独做一期技术盛宴和各人一路分享, ,,,,在这里先抛砖引玉一下, ,,,,各人敬请等待后续的专题解说。。。。。。。

 

七、幼结

 

看到这里, ,,,,相信各人对新一代的数据中心运维技术也有所相识了。。。。。。。

 

全发国际网络互联网数据中心ENA(Easy Network Architecture, ,,,,单一网络架构)解决规划正是基于单主题Box+多平面组网的基础架构, ,,,,面向运维全流程做升级迭代, ,,,,从架构和运维两个层面持续演进。。。。。。。

 

本文中提到的运维个性已经在全发国际网络数据中心互换机产品中体现, ,,,,这些是全发国际人持久深刻业务场景、观察钻延注不休打磨精品的具体出现。。。。。。。我们深知, ,,,,看清用户痛点, ,,,,以简答的方式辅助用户成功, ,,,,这才是技术研发的第一要义。。。。。。。同时也但愿每一位技术盛宴的读者与我们分享您的远见卓识, ,,,,我们共同发现、共同会商、共同成功!

有关推荐:

更多技术博文

任何必要, ,,,,请联系全发国际

全发国际(中国)有限公司官网

返回顶部

收起
全发国际(中国)有限公司官网 文档AI副手
全发国际(中国)有限公司官网 文档评价
该资料是否解决了您的问题??????? ?
您对当前页面的中意度若何??????? ?
不咋滴
极度好
您中意的原因是(多。。。。。。。??????? ?
您对文档是否还有其它的问题或建议??????? ?
为尽快解决问题, ,,,,请您留下联系方式以便回复
邮箱
手机号
感激您的反。。。。。。。
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】【sitemap】