人工智能，不许网络再丢包

2019-01-16 08:35

在丢包率为0．1％的传统以太网中，我们生活安然，并无不适。而现在，人工智能（AI）带来的数据量激增改变了这一切。

那些以太网曾经看来微不足道的“苟且”开始变得如鲠在喉，它让人们越来越无法忍受。至少对于那些以AI为生的公司和个人而言，情势正变得越来越紧迫：

根据华为GIV 2025（Global Industry Vision）的预测，企业对AI的采用率将从2015年的16％达到2025年86％，彼时，新增数据量达到180ZB，95％的非结构化数据（语音／视频等）依赖AI处理，越来越多的企业将利用AI辅助决策、重塑商业模式与生态系统，并重建客户体验。

一项实测支持的业务观察显示，因为AI业务带动的数据量高速增长，0．1％的以太网丢包率会导致AI的计算力损失约50％——面向AI，在计算和存储领域已经取得突破之后，这一现实让网络设备供应商感受到了前所未有的压力。

为提升AI运行效率，过去数年间，闪存已经大范围进入存储领域，它让数据存储的时延降低超过了100倍；在计算领域，GPU等主要服务于AI的芯片也将数据处理能力提升了100倍以上。

在ICT领域，AI的短板眼下只剩下一块——网络设备。针对这一问题，华为网络产品线总裁胡克文认为，面向AI的未来，网络设备应该做到“强制性”的零丢包。

每家ICT厂商都是努力做着同一件事情，生产出这类适应AI需求的网络设备，全球范围概莫能外。它意味着巨大的挑战与创新，也意味着可见的、巨大的市场回报。

7天的训练，4天完成

如今，围绕这块短板，华为再次领先了。在上周的春季新品发布会上，它推出了植入高能效AI芯片的新款交换机CloudEngine 16800。

CloudEngine 16800发布现场

这款业界首款面向AI时代的计算中心交换机，可以借助其实时学习训练能力和独创的iLossLess智能无损交换算法，在以太网中实现零丢包机制，并实现流量模型的自适应自优化。

2018年，华为轮值董事长徐直军宣布，华为将AI定位为新的通用技术，并发布了AI发展战略，全面将AI技术引入到智能终端、云和网络等各个领域。

CloudEngine 16800能通过AI技术的应用实现突破，显然直接受惠于此战略的执行。基于AI技术，该款产品在网络调优上实现了智能化：一个是单流局部调优，另一个是整网全局调优。

如果将网络视作一个城市的交通网，前者实现了在一个十字路口智能调整红绿灯时间的功能；而后者，则实现了动态关联调整全市红绿灯时间的功能。

据测算，这一系列AI技术的应用，不止在用户端将AI算力从50％提升到100％，同时还将数据存储IOPS的性能提升了30％．

一家互联网巨头已经对这款新品进行了测试，业务内容则是当下方兴未艾的无人驾驶AI训练。

训练的效果让人们大吃一惊——以往1天运行的数据需要训练7天才能完成，而现在，这家公司只用了4天。对于高速的商业竞争而言，这几乎是直接为用户提供了一种接近核心的竞争力。

做一台AI时代的交换机

华为也因此将“内嵌AI芯片”定义成了AI时代数据中心交换机的三大特征之一。在其最新定义中，另外两项特征则分别是“单槽48 x 400GE高密端口”，和“能够向自动驾驶网络演进的能力”。

“如果这三大特征，你不符合的话，你可能就不是面向AI时代的数据中心交换机。”胡克文说。

2012年华为发布了100GE的正交架构产品CloudEngine12800数据中心交换机，并在此后一路高歌猛进。从2016年起，华为的数据中心交换机已连续三年蝉联市场份额第一。2018年，在标志最高应用标准的金融行业，华为数据中心交换机也坐上了头把交椅。

新品特性应对AI时代的3大挑战

华为在技术创新上的投入一直为外界称道，并被视为华为企业基因式的存在。但这种基因以何种形式在机体中发挥作用，外界通常知之甚少。在这一点上，CloudEngine 16800为实现跨越式硬件平台升级所做的技术准备，则可以清晰地显现出这一基因的“运作”方式。

为满足AI时代流量倍增的需求，CloudEngine 16800单槽位提供了业界最高密度48端口400GE线卡，单机则提供业界最大的768端口400GE交换容量，这一交换能力是业界平均的5倍。

其中，针对400GE接口的标准化工作，华为早在2015年便已经启动——考虑到企业AI等新型业务驱动了数据中服务器从10G到25G甚至100G的切换，华为判断行业必然要求交换机支持400G接口，400GE接口标准化工作于2015年启动，并针对数据中心应用完成了标准化。

此外，在新材料新工艺、能效和散热等领域，CloudEngine 16800的创新林林总总，不胜枚举。例如，在用户直接可见的节能方面，与业界相比，新品可将平均每bit数据的功耗降低50％，这相当于每台每年节省32万度电，约合电费26万元。

自动驾驶从秒级识别开始

另一项用户可以直接感受到的革新，同样来自于AI技术的应用。这种用户可感知的能力被称为“能够向自动驾驶网络演进的能力”。

在传统数据中心，在接到故障告警后，技术人员必须依靠人工排查的运维手段定位故障，如果不够幸运，一项故障排查通常需要数小时，甚至更长的时间。这在业务部门看来，显然是无法接受的——它无法面向一个充满挑战的AI时代。

和解决丢包问题一样，华为将问题“交还”给了AI，期待自动驾驶网络能够彻底改变运维人员面对的窘境。

现实中，汽车领域的自动驾驶技术正经历着高速的演进，要在网络世界实现自动驾驶，进程同样存在，一步到位并不现实。在这一点上，胡克文相当乐观：只要有梦想和追求，未来就一定能实现。

“首先，能不能做到在秒级（时长）中把故障识别出来？（那样，IT人员的）压力就会小很多。”他说。

要实现自动驾驶网络，供应商至少要在算法、数据和本地推理与执行等领域同步推进，并在软硬件技术端实现AI的闭环。

据胡克文透露，目前华为相关的iNetOps智能运维算法已经可以支持72大类典型故障，在盲测中，它支持的故障定位准确率超过了90％．

结合这些软实力，以及内置AI芯片提供的硬支持，华为最终在CloudEngine 16800中大幅度提升了“网络边缘”即设备级的智能化水平，使得交换机具备了本地推理和实时快速决策的能力。通过本地智能和集中的FabricInsight网络分析器，CloudEngine 16800构建了一个分布式AI运维架构，并最终实现了秒级故障识别和分钟级故障自动定位。

这一系列的努力，最终让CloudEngine 16800在AI时代背景下展现出了它与众不同的一面。

在同一背景下，数据中心已经成为了AI的“孵化工厂”；现在，要让这个AI在企业数字化转型中扮演更为重要的角色，“孵化工厂”的升级也已进入了时间的节点。

或许，就像华为所努力的方向一样，“孵化工厂们”也是时候考虑如何建设一个自动驾驶的高性能网络来提升AI算力，并最终实现AI业务的加速了。毕竟，AI时代的网络，断然不会接受“苟且”。