具身智能融资超300亿，数据“卖水”生意先赚钱了

2026-04-17 17:53

蓝鲨财经社

关注

"百亿规模的生意谁在布局？"

作者 | 简安

编辑 | 卢旭成

中国的具身智能行业有多火？据不完全统计，开年至今总融资额已超300亿元，估值超100亿元的具身智能公司超20家。4月16日，它石智能宣布完成4.55亿美元融资，成为这轮具身智能融资狂潮的最新案例。

这超300亿融资中的大部分并没有流向机器人本体制造。贝壳财经曾报道，年内超过半数投资都涌向“具身大脑”和“灵巧手”这两个方向——一个决定机器人的智商，一个决定机器人的动手能力。

数据卡住了具身智能的脖子

目前，机器人最大的问题不是腿脚不好，而是脑子不够聪明。也就是说，单纯的机器人硬件制造已不是壁垒，如何获取、处理和利用大规模、多模态的真实世界数据，成为决定具身智能模型能力上限和产业发展速度的关键。

目前来看，市场上绝大多数机器人还停留在模仿阶段，只能完成单一的标准化任务。比如一台机器人可能会叠衣服，但不一定会叠被子，它需要一个动作一个动作地学，做不到像人那样举一反三。

这种单点模仿的能力和通用智能相差甚远。造成这种困境的根本原因就在于：没有足够多高质量的物理交互数据。要打破这个瓶颈，唯一的路径就是用海量的数据喂养模型，让机器人在无数次的交互中学会泛化能力。这个逻辑和大语言模型的进化路径一致，只是两者需要的数据天差地别：大语言模型之所以聪明，是因为它消化了互联网几十年积累的海量文本数据，而机器人要变聪明，则需要真实物理世界中包括视觉、触觉、运动轨迹、空间位置等多维度的庞杂数据去喂养。

与自动驾驶面对的高标准场景如全国统一的交通规则、高度标准化的操控逻辑，因而数据采集相对规范统一不同，机器人面对的是家庭、商超、工厂等非标准化的场景，每一个场景、每一个物体、每一个动作都可能存在差异，这让数据采集的难度指数级上升。数据荒，已经成为制约整个具身智能行业发展的瓶颈。

觅蜂科技董事长及CEO姚卯青在接受蓝鲨财经社等媒体采访时透露，ChatGPT5的训练数据达100亿小时，具身智能的有效数据量只有50万小时，差距达两万倍。如果说语言大模型已是大学生的话，那具身智能大模型就还是一个小婴儿。所以很多机器人公司融到钱之后，最先做的一件事就是：买数据、采数据。

数据“卖水”人瞄准了这一产业痛点。

4月16日，京东和智元机器人旗下的觅蜂科技各自拿出了一套关于具身智能（物理AI）数据的解决方案：京东在全球首推覆盖“采、存、标、训、评、仿、测”全链路的具身智能数据基础设施；觅蜂科技要做“一站式物理AI数据服务平台”。

图源：觅蜂科技CEO姚卯青

这两家企业在同一天发布的方案，揭示了一个正在发生的事情：具身智能行业的核心瓶颈已经从硬件本体（“小脑”）快速转移到驱动智能决策的高质量训练数据（“大脑”）。业内人开玩笑说，卖机器人本体的企业不一定能快速实现盈利，但数据“卖水”的生意可能最先跑通。

图源：网络

具身智能数据生意市场规模或超100亿元

数据标注并不是什么新鲜生意，早在2014年前后深度学习、推荐算法兴起的时候，就催生了一大批数据标注工厂。

当时它们主要给百度、抖音这样的互联网公司提供服务，通过人工标注图片和视频来训练算法。也有影视和游戏类的公司，用动作捕捉设备采集人体动作数据，用来制作电影特效和游戏动画。但这些早期的数据，无法满足机器人训练的数据需求——传统数据标注大多用于内容AI，与物理AI的训练逻辑不一定相同；影视动作捕捉则更多追求视觉效果，而不是让机器人复刻动作。所以很多机器人公司发现，买回来的数据要么精度不够、要么场景不匹配，不能直接用来训练具身智能大模型。

市场上没有足够多高质量的数据，一些头部机器人公司便亲自下场做数据业务。比如智元机器人就拆分出觅蜂科技，专门打造一站式物理AI数据服务平台；京东也发布了覆盖“采、存、标、训、评、仿、测” 全链路的具身智能数据基础设施；还有一批从自动驾驶、人工智能实验室出来的初创团队，也纷纷涌入这个赛道。

目前行业内的机器人数据主要分为三类，各自的定价和用途也有明显区别。其中，仿真数据在虚拟环境中生成，主要用来补充一些罕见的长尾场景，尚未形成大规模的流通市场，价格也不透明；通过穿戴设备采集人类动作数据的无本体数据，成本低也更易规模化，收敛状态下价格大概是真机数据价格的三分之一到二分之一。

精度最高的是真机数据——实体机器人实际操作采集的数据，最适合用来训练落地场景的模型，市场价在每小时 500-1000 元之间。这个价格听起来不算太贵，按这个价格测算，如全行业一年能产出100万小时的有效数据，对应的市场规模是10亿元；如果有效数据产出提升到1000万小时，就是100亿元的市场规模。姚卯青告诉蓝鲨财经社，现在整个物理AI数据处于“有多少买多少”的供不应求的状态。

因此，京东和觅蜂都把千万小时级产能定为目标。姚卯青表示，2026年觅蜂将实现千万小时级数据产能，目标在2030年达成百亿小时级数据产能，共建全球最大物理AI数据生态。京东也表示，要构建全球规模最大的具身智能数据集采中心，在两年内积累1000万小时人类真实场景视频数据。

为了快速放大产能，京东和觅蜂都采用轻资产的众包模式，这和美团、滴滴搭建的骑手和网约车司机平台的运营逻辑相似。

京东推出了自研的可穿戴式超高清采集终端JoyEgoCam，计划发动最多60万人进行“人类史上规模最大的数据采集行动”。这个目标完成起来不难，京东集团2025年员工数超90万，只要京东创始人刘强东一声令下就可以给京东的快递小哥、外卖骑手等提供一个增收的副业。

图源：京东黑板报

觅蜂不自己大规模建设数据采集中心，但有一个1-200人团队，负责打造数据采集“样板间”，同时给合作伙伴提供统一的标准、系统和运营管理模板，吸引各地合作伙伴加盟。合作伙伴在全国自建团队、采购设备完成数据采集，觅蜂科技负责派发订单、管控质量和对接客户。这种模式，不仅能让觅蜂科技迅速扩张产能，还能推动智元机器人硬件的销售——合作伙伴要采集真机数据，需要采购智元的机器人和相应的设备。

姚卯青透露，千万小时目标级的具身智能优质数据需要铺设1万台采集终端。如此，光是觅蜂的合作伙伴就能帮智元机器人多卖1万台机器人（宇树科技2025年才卖出5500台人形机器人）。这个模式跟比亚迪新能源汽车一开始主要卖给出租车公司类似。

图源：觅蜂科技

不过，这个快速发展的行业，依然还面临很多挑战。如机器人场景的非标准化，导致数据采集的质量参差不齐；很多地方的数采中心存在重复采集、低效运营的问题；无本体数据虽然采集效率高，但天生存在精度不足的缺陷；整个行业也还没有形成统一的数据标准，不同平台采集的数据很难跨平台复用……但这些痛点也恰恰是这门数据生意的壁垒。

姚卯青表示，现在的具身智能就像是大模型2017年、2018年刚出现时的状态，大家已经看到一条路径，但还没有看到完整的智能涌现的雏形，机器人要实现真正的通用智能，至少还有四五年的路要走。这也意味着，行业对优质数据的需求会长期存在，而且会越来越旺盛。

原文标题 : 具身智能融资超300亿，数据“卖水”生意先赚钱了