写研报水平超过ChatGPT，国产大模型究竟在“写”啥？

2024-01-31 11:39

按照科技行业普遍观点，某个技术超越科技奇点后就会产生科技大爆炸，围绕该技术的各类应用层出不穷，继而激活一轮新科技革命。显而易见的是，通过GPT，AI实际上已在2023年跨越了技术奇点。2024年开始，AI正在进入“大航海时代”。作者/李长怀编辑/沐凌

国产大模型厂商，正在一些局部能力上成功赶超ChatGPT。近日，弗若斯特沙利文（Frost & Sullivan）联合头豹研究院发布《2023年中国大模型行研能力评测报告》，商汤商量、文心一言3.5、讯飞星火等多款国产大模型均取得了接近甚至超过GPT3.5的得分。

数字行研作为一个小规模、不成熟的行业，对挤进榜单前列的几家厂商整体发展的影响似乎不大。不过，作为中国厂商全面布局的AIGC众多细分市场之一，这些厂商接近甚至超过ChatGPT3.5的能力表现，却是对其大模型卓越竞争能力的有力验证；也是他们通过各个细分领域“聚沙成塔”效应，实现业务稳健发展的一个支点。尤其是在AI大航海时代，AI不仅成为各行各业转型升级的核心动力，也必然带来全球科技行业格局和秩序的重构。近日微软市值反超苹果，即是前兆。透过榜单纵观整个AIGC市场，商汤、百度、科大讯飞等中国大模型厂商，实际上已具备参与国际竞争，并竞逐未来AI时代全球科技领域少数几个领导者的能力。

新赛道，“中国队”集体反超

自ChatGPT爆火以来，生成式 AI的颠覆性已毋庸置疑。没有人再追问何为生成式 AI，而是希望了解它究竟能给自己带来什么价值。而金融行业应用AI技术撰写研报早已有之。早在2018年，一家名为Kensho的人工智能公司，就开发出一款Warren分析软件（取自沃伦·巴菲特），只需几分钟即可完成各类信息搜索和投研分析，为用户提供投资建议。相比之下，完全依靠人工操作的资产分析师团队，要完成这一过程，往往需要长达一周时间。这种颠覆性的投研分析工具，不仅让Kensho赢得了华尔街“人神共愤”的名声，更让这家初创公司获得标普5.5亿美元的收购大单，成为当时人工智能领域最大的一笔收购交易。

而再往前看，Kensho的早期投资人中，更是不乏高盛、大摩、小摩、花旗、布雷耶、谷歌风投、恩颐投资等国际顶尖投资机构。可见，对于数字投研的产业价值，国际投资界早已“用脚投票”。之所以一直不温不火，大概还要归因于技术。据沙利文指出，行业研究的行业特殊性、复杂性、严谨性，对内容生成和创作能力提出了多维度的高要求。而显然，以ChatGPT为代表的语言大模型的突破，成功解决了这一问题。业界至今仍记得，2023年2月，财通证券发布的一篇由ChatGPT撰写的医美研报，刚一发布就迅速在金融圈刷屏，有券商分析师直呼：“肯定会替代人工。”

众所周知，内容生成和创作能力是目前大模型最火热的应用场景。Gartner 预测，到2025年，企业30%的营销信息将会由大模型协助生成。数字投研恰好赶上了这一轮数字变革，从默默无闻一转身成为爆火的黄金赛道。这次由沙利文例举的12款大模型背后的研发厂商，堪称大模型“中国队”的排头兵，代表了中国大模型厂商的整体技术能力。譬如商汤科技，早在大模型热兴起之前，其已成为全球领先的AI软件公司。

根据沙利文报告，在这次榜单中，商汤语言大模型“日日新·商量”（简称：商汤商量）以总分7.73斩获总榜第一，并在报告撰写能力（八大模块）、模型基础能力（行研基础能力）两个子榜位居第一，成绩明显高于GPT3.5（7.29分）。除商汤之外，百度旗下的文心一言3.5，也获得了7.48的总分，实现对GPT3.5的反超。科大讯飞旗下的讯飞星火总分7.25，紧随其后，并在报告撰写能力子榜上获得8.10的得分，远高于GPT3.5的7.58。无论是商汤、百度的整体能力超越，还是科大讯飞的单项能力超越，都向我们传递出这样一个事实：中国大模型厂商，已经具备在数字行研这一新兴赛道参与国际竞争并占得优势的能力。而作为内容生成领域的一个高门槛行业，这也意味着“中国队”在AIGC的其他赛道，同样可以占得一席之地。

构筑AI之塔的又一粒金沙

“每个行业都可以重做一遍”，是这波AIGC热潮中被重复最多的一句话。这句话其实包含两个方面，一是用大模型赋能改造各行各业，实现性能升级、服务升级，大幅提升产业效率，在此过程中实现大模型的商业变现；另一方面，则是依托大模型超强的智能化能力，创造新的智能化产品、服务，开拓新的赛道。数字行研恰恰就是后者的一个典型例证。

可以说，如果没有大模型这样强大的数字能力支撑，Kensho式的小打小闹，也许很难形成如今刷屏金融圈的金融科技新赛道。类似的案例俯拾即是。去年年中，小冰公司开始推出网红明星克隆人，数字人聊天平台Character.AI的移动端首周下载量甚至超过ChatGPT，其背后正是大模型以其突破性的内容生成能力，实现了数字人的个性化。用《第一财经》的话说：“AI已开始为数字人注入灵魂。”

至于前者，微软、阿里、百度等国内外科技巨头，使用大模型工具对其自身及客户产品、平台功能的陆续改造，早已不是什么新鲜事。从行业发展来说，两者的“双路并进”，带来了大模型相关行业快速增长的强劲动力。而从企业来看，这也要求他们不能拘于一隅，限制了自身的发展，而是要不断地拓展大模型应用领域，在现有的各行各业率先实现业务落地，站稳脚跟的同时，不断探索新的市场，才能真正实现自身业务的稳健、长期增长。

好在，从政策层到企业层，都已意识到行业落地的重要性，并正在积极推进。2023年7月发布的首部大模型监管法规《生成式人工智能服务管理暂行办法》，首先即明确了鼓励生成式人工智能技术在各行业、各领域的创新应用，探索优化应用场景，构建应用生态体系。今年两会期间，大模型的落地应用也成为代表讨论的高频词。企业方面，就本次报告中几家领先厂商来看，在数字行研之外的众多领域，他们都已实现成功落地。据商汤介绍，截至去年11月底，商汤的语言大模型商量在金融、手机、医疗、汽车、地产、能源、传媒、工业制造等众多垂直行业，已经与超过500家客户建立了深度合作。如果拓展到商汤公司在2023年4月发布的全系列生成式AI产品——商量、秒画、如影、琼宇、格物，商汤大模型产品的落地应用，正展现出强劲的发展潜能。

根据商汤2023年半年报，公司生成式AI相关收入录得了670.4%的同比增长，对集团业务的贡献从2022年的10.4%迅速提升至20.3%，AIGC转型正呈现加速态势。国联证券研报认为，AI大模型已开启商汤第二增长曲线。从商汤的AIGC转型来看，大模型厂商的业务增长模式，恰如《法华经》中“聚沙为佛塔”的“童子戏”。对于商汤、百度、科大讯飞等一众中国大模型厂商来说，在产业发展初期，“垒石为屋”式的发展往往会面临找不到石块的窘境，因而每一粒细沙都显得弥足珍贵。可喜的是，面对潜力十足的数字行研赛道，他们没有错过这粒金沙。

“大航海时代”的“小日记”

按照科技行业普遍观点，某个技术超越科技奇点后就会产生科技大爆炸，围绕该技术的各类应用层出不穷，继而激活一轮新科技革命。显而易见的是，通过GPT，AI实际上已在2023年跨越了技术奇点。2024年开始，AI正在进入“大航海时代”。

500年前的那次大航海，不仅带来了“日不落”帝国在全世界范围的崛起，也酝酿了当今世界唯一超级大国的雏形，世界格局发生了翻天覆地的变化。对于AI行业这场新的“大航海”来说，其在全球科技领域深远影响也同样显而易见。因此，“每个行业都可以重做一遍”，对如今的大模型厂商来说，既是机遇，也是挑战。产业渗透的进展，在各个细分领域的份额，直接影响到大模型厂商在未来科技竞争中的沉浮。1月11日，微软股价上涨，市值再次超过苹果，成为新年以来最受关注的事件之一，仿佛就是科技行业的一个隐喻。

市场似乎认定了在大模型研发应用上走在了前面的微软，比迟迟不见动静的苹果公司，更有可能抓住未来科技领域最有价值的机遇，成为新的“日不落”和“美利坚”。幸而，中国的大模型厂商们，也已经造好了他们的海船。以本次报告中得分高居榜首的商汤为例，其在整个AIGC领域已构建起从算力基础设施到模型到应用的全栈布局，公司在“大模型+大算力”的战略下，通过AI大装置SenseCore打造出了具备自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力的“日日新SenseNova”大模型体系，催生了AIGC“新的研究范式”，即基于一个强大的多模态基模型，通过强化学习和人类反馈，不断解锁基模型新的能力，从而更高效地解决海量的开放式任务。在“日日新”大模型体系下，商汤创造出了一系列生成式AI模型及应用。

尤其值得注意的是，在AI算力需求指数式增长带来的算力短缺背景下，商汤对智能计算基础设施SenseCore大装置进行持续升级，算力规模达到6ExaFLOPS，为这艘中国大模型“海船”，提供了充足、可靠的动力。环顾全球大模型厂商，“迪亚士”们率先启航，但也尚未走远；“达伽马”们未来或许不一定能发现新大陆，但开辟出通往东方的新航线，也将在“日不落”帝国的崛起中发挥重要作用；“麦哲伦、哥伦布”出发稍晚，但等在他们前方的，是最受瞩目的美丽新世界。一切都还只是刚刚开始，桂冠也不止一个，唯一的问题是：路在何方？

在如今大模型应用爆发的初期，应用领域挖掘不彻底、商业模式不完善是摆在大模型厂商面前的共同难题。要寻得这些难题的破解之法，只能在更多的应用领域进行长期深入的广泛探索，从中总结经验，发现规律。数字行研本身只是大模型无数应用领域中微不足道的一个，但它对各家厂商们的价值，或许正在于此。让我们再次回想500年前，当哥伦布来到美洲时，他仍在自己的航海日记中，书写着在他看来稀松平常的见闻。但直到今天，我们都知道，这位空前伟大的航海家，不经意间已经记下了欧洲人登陆新大陆的伟大时刻。在数字行研领域“集体”反超GPT3.5的成果，或许也可以看作中国大模型厂商们，记下的一篇稀松平常的“航海日记”。我们期望，终有一天，在大模型发展的漫漫航程中，中国厂商们，也将迎来自己的“登陆时刻”。

原文标题 : 写研报水平超过ChatGPT，国产大模型究竟在“写”啥？