旷视即将开源Brain++的深度学习框架

2020-03-16 16:34

近日，旷视科技透漏其自主研发并全员使用的AI 生产力套件Brain＋＋的核心深度学习框架－－MegEngine，即将于3月25日进行开源，发布会将于当日14：00在线举办。

2017年，AlphaGo与柯洁的围棋大战让大众叹为观止，而支撑AlphaGo运转的底层技术框架就是谷歌的TensorFlow。

知名度或许没有谷歌那么广为人知，但其实旷视的国产深度学习框架MegEngine远早于谷歌TensorFlow的时代，旷视早在2014年就开始研发其深度学习框架MegEngine，过去5年里，这套深度学习框架被旷视全员使用，支撑着整个旷视的科研及产品化。

同时在框架的基础之上，旷视研究院还提出了“三位一体”概念，将数据和算力平台融合，构建了集“算法、数据和算力”于一体的 AI 生产力套件 Brain＋＋，自动化、规模化、集约化生产算法，在Brain＋＋的驱动下成为了现实。

技术层面旷视的Brain＋＋完全可以和谷歌的TensorFlow、脸谱的PyTorch相提并论。

Brain＋＋

为了能够快速的进行算法相关实验，在实际的工业场景中落地，就需要一个具有高性能，可复用和能灵活迭代的AI算法平台。

而打造一个满足当前需求的AI算法平台，需要从计算性能，平台易用性，满足真实业务场景需求等不同的方面进行考量。

人工智能发展初期阶段，训练一个 AI 模型，至少需要一两个月，开发者甚至要通过手敲 C＋＋来完成计算过程，而深度学习社区基本上被 TensorFlow 和 PyTorch 两大框架垄断。

算法生产就是对输入数据进行分析和提炼，并输出能预测问题答案模型的过程，如何摆脱繁琐低效的算法开发流程，获得批量生产算法的能力一直是旷视所思考的问题。

旷视联合创始人唐文斌这样介绍Brain＋＋：“为了解决这个问题， 2014年我们开始研发Brain＋＋，它是一套端到端的AI算法平台，目标是让研发人员获得从数据到算法产业化的综合技术能力，不用重复造轮子也可以推进AI快速落地。我们的Brain＋＋还引入了AutoML技术，可以让算法来训练算法，让AI来创造AI。”

MegEngine

旷视 Brain＋＋的架构分为三部分，其中即将开源的深度学习算法开发框架 MegEngine 是核心模块，其次是提供算力调度支持的深度学习云计算平台 MegCompute，以及用于提供数据服务和管理的数据管理平台 MegData。

MegEngine可实现训练、部署一体化，能够支撑大规模视觉方向的算法研发，具体又分为四个层，包括计算引擎、运行时管理、编译和优化以及编程和表示。

还引入了旷视独家的AutoML技术，只需训练一次就能得到整个模型空间的刻画，可以显著降低人力成本并大幅提高开发效率。

MegEngine基于 C＋＋开发，使用了目前流行的计算图方式，和其他框架不同，其使用的是异构架构，方便使用框架进行分布式计算。

此外，MegEngine 内部的计算以算子的形式进行，它支持多种算子节点和变量算子，包括常用的卷积、全连接、ReLU 和用户可定制的算子，甚至可以计算二阶梯度，从而进行更多底层和灵活的运算。

相比于开源的大部分深度学习框架，MegEngine 具有下列优势：

运算速度快：MegEngine 动态、静态结合的内存优化机制，因此速度比 TensorFlow 更快；

内存占用少：根据内存使用状况，MegEngine 充分优化内存，特别是亚线性内存优化，可以支持复杂的网络结构，自动利用部分冗余计算缩减内存占用，可达两个数量级，从而支持更大规模的模型训练；

支持多种硬件平台和异构计算：MegEngine 支持通用 CPU、GPU、FPGA 以及其他移动设备端硬件，可多卡多机进行训练；

训练部署一体化：整个框架既可用于训练又同时支持推理，实现模型一次训练，多设备部署，避免复杂的转换过程造成的性能下降和精度损失。

旷视在 2017 年拿下 3 项 COCO 冠军，2018年拿下 4 项 COCO 冠军，以及19年发布的全新的通用物体检测数据集 Objects365。这些成绩之下，Brain＋＋贡献了不小的功劳。