AI大模型内卷加剧，商汤凭什么卷进来

2023-04-19 09:42

智能进化论

关注

作者|小葳

出品|智能进化论

2023年，国内大模型何其多。

目前，已宣布推出或即将推出大模型的国内企业多达20余家，基本上能想到的相关企业都已入局。其中，既有资金雄厚的BAT、华为、字节等大厂，也有王慧文、王小川、周伯文等互联网大佬领衔的初创企业，还有垂直领域的AI企业，比如商汤科技、科大讯飞等。

4月10日，商汤推出“日日新SenseNova”大模型体系，包括一系列生成式AI模型：大语言模型“商量”、文生图AI平台“秒画”、AI数字人视频生成平台“如影”、3D内容生产平台“琼宇”、“格物”，以及大模型数据标注平台“明眸”。

在大模型的舆论场上，商汤并不高调，而是直接搬出全套大模型产品，并迅速开放面向企业的试用通道。从发布会现场实时演示的效果看，商汤大模型的实力不容小觑。“一个专注CV的公司能在LLM上做出如此高成熟度产品，其开发团队令人起敬。”一名知乎网友的观点代表了一部分外界声音。

同时，一些质疑的声音也出现了，比如有观点认为专注机器视觉赛道（CV）的独角兽AI企业到底有没有必要凑热闹搞大模型。毕竟大模型需要长期巨量烧钱，目前商业化模式有限，这会让尚未盈利的AI企业面临更大的亏损压力。

那么，如何看待商汤进军多模态大模型领域的布局？在日益拥挤的“中国版ChatGPT”竞争中，商汤又将走出怎样与众不同的生态位呢？

1 从大装置到大模型，始终指向同一目标

当ChatGPT推动AI行业走过“iPhone时刻”，大模型的通用性已经得到了成功验证。

更重要的是，今年3月微软发布的一篇论文指出，“GPT-4已经可以被视为通用人工智能的一个早期的版本。”这一观点也得到了相当多专业人士的认可。深度学习之父Geoffrey Hinton为代表的一些顶级科学家认为，通用人工智能（AGI）不再遥不可及，而有可能在数十年内逐步实现。

接下来，在大模型这一确定性的方向上，中外AI企业如何摸索出适合自己的道路，成为关键命题。

商汤对这个问题的答案是：坚定地走“大装置+大模型”的道路。

了解商汤战略的朋友会知道，商汤此时推出大模型并不是跟风，而是自身在持续解决AI规模化落地道路上的又一个关键节点。

此前，AI落地难的核心原因是一个场景一个模型的开发模式，导致落地成本高，模型复用率低，难以规模化标准化。彼时，2020年问世的千亿参数的GPT3已经为大模型的通用性带来一定突破。商汤的解法同理，向下层基础设施扎根，希望用庞大的参数量×数据量跑出通用性。

2021年，商汤推出AI大装置SenseCore，并在2022年完成重要扩建。AI大装置可以理解为大算力基础设施+大模型即服务（Model as a Service）。

目前AI大装置构建了27000块GPU构成的并行计算系统，实现了5.0exaFLOPS的算力输出，是亚洲目前最大的智能计算平台之一。商汤AI大装置上的算力可以同步支持20个千亿规模参数量的超大模型，并且以千卡规模来同时训练。

同时，AI大装置还对外提供大模型即服务，包括自动化数据标注、大模型并行训练、推理部署等等。目前AI大装置最大的集群由4000块芯片并联组成，可以训练参数量超5000亿的稠密模型，今年的目标是能够训练超过万亿参数的大模型。

投入这么大，AI大装置的应用情况如何呢？

2022年，商汤将AI大装置的能力向行业客户开放，通过提供高性能计算资源、丰富的预训练模型库、易用的开发工具和专业技术支持，帮助客户高效训练大模型。目前已经有超过10个大模型研发任务得以实现，涵盖了视觉、语言、多模态等领域的用户自定义大模型开发。

面向企业开放后，AI大装置已经有了规模化的营收。根据商汤2022年年报，2022年AI大装置对外服务产生的收入占比智慧商业（商汤四大业务板块之一）整体收入超20%。按照2022年智慧商业收入14.64亿元计算，AI大装置已经为商汤带来近3亿元营收。

看到这里你也许有些明白了，商汤并不是从零开始构建大模型的。之所以能在短期内迅速推出多种类型的大模型，离不开AI大装置这个根基。而且实际上，商汤在大模型领域的布局要早于AI大装置。

在最擅长的CV领域，2019年商汤就发布了10亿参数的视觉大模型。2022年，商汤的视觉大模型已经进化到了320亿参数，也是世界上迄今为止最大的视觉模型。

自2021年起，商汤科技开始自研NLP大模型和多模态模型。在NLP领域，商汤的大语言模型达到了千亿参数级别。

在多模态领域， 2022年3月，商汤科技联合上海人工智能实验室、清华大学、香港中文大学、上海交通大学发布了多模态多任务通用大模型“书生（INTERN）”，拥有30亿参数。书生大模型已经在通用视觉开源平台OpenGVLab开源，是目前开源模型社区性能最强的多模态大模型。

在AIGC领域，商汤推出10亿参数的AIGC模型，能够支持文生图和图生图的各种功能。曾在星际争霸的比赛中超越DeepMind的AlphaStar的商汤决策智能模型，未来也将融入到多模态大模型中。

“未来商汤的通用人工智能大模型体系会覆盖视觉感知、语言理解、内容生成和推理决策四大方面。”商汤科技联合创始人、首席科学家王晓刚表示。

目前，商汤的大模型已在在智慧城市、智慧商业、智能汽车和智慧生活四大板块20多个场景实现了落地交付。比如，在自动驾驶领域，商汤在视觉大模型领域研发的BEVFormer++感知算法以绝对优势赢得了2022年Waymo挑战赛主赛道冠军。

综上，商汤做大模型的目标不是去抢夺面向个人用户的“中国版ChatGPT”的噱头，而是用“大装置+大模型”加速AI商业化落地。

2 “日日新”的双重驱动力

“AGI催生了新的研究范式，即基于一个强大的多模态基模型，通过强化学习和人类反馈不断解锁基模型新的能力，从而更高效地解决海量的开放式任务。AGI将实现从‘数据飞轮’到‘智慧飞轮’的演进，最终迈向人机共智。”商汤科技联合创始人、首席科学家王晓刚表示。

具体到商汤“日日新”大模型，「智能进化论」认为，其对于商汤而言至少有两大方面的驱动力：

第一重驱动，通过丰富的AIGC大模型向外赋能，包括通过开放API的形式，降低各行各业应用大模型的门槛；

目前商汤“日日新”系列大模型仅面向企业用户开放试用。不过，从发布会实时演示来看，“日日新”大模型给人的初步印象是：整体能力全面，相当于没有“挂科”，而且在数字人视频生成、3D内容生成等方面令人惊艳，超出预期。

商汤版ChatGPT大语言模型“商量”，其多轮对话表现流畅，并有两个细分领域的优势：问诊与编程。编程助手可帮助开发者更高效地编写和调试代码；在健康咨询方面，“商量”相当于一个AI版的全科医院分诊台，类似什么症状应该看什么科室，可以为用户提供个性化的医疗建议。此外，“商量”可以直接读取PDF文件提取关键信息的功能也非常实用。

“秒画SenseMirage”文生图创作平台，可支持6K高清图的生成，还支持用户自定义训练生成模型。

“如影SenseAvatar”AI数字人视频生成平台，仅需一段5分钟的真人视频素材，就可以生成出来声音及动作自然、口型准确、多语种精通的数字人分身，这将极大降低电商直播、在线教育等高频应用场景的人力成本。

“琼宇SenseSpace”和“格物SenseThings”3D内容生成平台，可以高效低成本生成大规模三维场景和精细化的物件，能够为元宇宙等虚实结合场景提供高品质低成本的构建技术。

第二重驱动，强化商汤已有的在CV、视觉感知领域的优势，加速AI技术落地。

在智能驾驶领域，基于视觉大模型，商汤开发了用于自动驾驶的BEV（Bird Eye View）感知算法，在Waymo挑战赛上以绝对优势取得了冠军。基于此算法，商汤开发了业界首个感知决策一体化的端到端自动驾驶解决方案UniAD，可以为自动驾驶多模态模型带来更强的环境、行为、动机解码能力。

据悉，“日日新SenseNova”为政企客户提供了多种灵活的API接口和服务，包括图片生成，自然语言生成，视觉感知通用任务与标注服务。通过调用API接口，企业用户可以根据基模型进行微调，低门槛、低成本、高效率地实现各类AI应用。

3 从单点到平台，转型加速时

值得注意的是，在坚定投身“大装置+大模型”路线之时，商汤自身也处在业务结构转型的关键时期。

目前，商汤的业务边界早已不局限于CV领域，而是正在成为一家通用AI基础平台公司。而且在此过程中，“大装置+大模型”没有削弱CV领域原本的优势，反而是增强了。

从商汤对AI大装置的定位“AGI时代基础设施的领导者”，可以看出，昔日CV四小龙之首的商汤已今非昔比。对于行业边界的突破，此前商汤科技董事长兼CEO 徐立曾经这样对媒体表示，“当我们实现了从物理世界与数字世界的融合，AI就变成了基础设施，人人都可以用，也就不用区分行业了。”

不过，业务结构的变化是转型更有力的证明。透过2022年年报，商汤的四大核心业务呈现“两升两降”的明显改变。其中，智慧城市、智慧商业两大板块业务收入下滑，智慧生活、智慧汽车两大新兴业务大幅增长，显示出业务结构更加多元健康发展的态势。

比如，2022年智慧生活业务收入同比增长129.9%，创历史新高，占总收入比重从2021年的8.8%提升至25.1%。智慧生活业务涵盖了AI内容生成（AIGC）、AI传感器、AI ISP芯片、智慧医疗等多个产品线，均实现了商业化突破。2022年智能汽车业务收入同比增长58.9%，占总收入比重从2021年的3.9%上升至7.7%。

“日日新来自《礼记·大学》，汤之盘铭曰‘苟日新、日日新、又日新’。也就是每天都要新，而且新的要更新。这代表人工智能大模型，在以周为单位的数据输入上，可以日日更新，能力日日增强。”徐立在发布会上这样解释日日新的来历。

2023年是国内AI大模型的爆发元年，站在当下的时间节点，我们可能很难预测未来AI大模型领域的市场格局是寡头垄断还是百花齐放。

因为，这是一场长期的、全方位的比拼，考验着每一位入局者的资金储备、战略意志、技术能力等核心实力。

也许，每一位玩家无需也不可能做到大而全，集中资源聚焦最有差异化优势的大模型，才是突围之道。

文中图片来自摄图网

END

本文为「智能进化论」原创作品，

欢迎关注。

原文标题 : AI大模型内卷加剧，商汤凭什么卷进来