具身智能融资超300亿,数据“卖水”生意先赚钱了
"百亿规模的生意谁在布局?"
作者 | 简 安
编辑 | 卢旭成
中国的具身智能行业有多火?据不完全统计,开年至今总融资额已超300亿元,估值超100亿元的具身智能公司超20家。4月16日,它石智能宣布完成4.55亿美元融资,成为这轮具身智能融资狂潮的最新案例。

这超300亿融资中的大部分并没有流向机器人本体制造。贝壳财经曾报道,年内超过半数投资都涌向“具身大脑”和“灵巧手”这两个方向——一个决定机器人的智商,一个决定机器人的动手能力。

数据卡住了具身智能的脖子
目前,机器人最大的问题不是腿脚不好,而是脑子不够聪明。也就是说,单纯的机器人硬件制造已不是壁垒,如何获取、处理和利用大规模、多模态的真实世界数据,成为决定具身智能模型能力上限和产业发展速度的关键。
目前来看,市场上绝大多数机器人还停留在模仿阶段,只能完成单一的标准化任务。比如一台机器人可能会叠衣服,但不一定会叠被子,它需要一个动作一个动作地学,做不到像人那样举一反三。
这种单点模仿的能力和通用智能相差甚远。造成这种困境的根本原因就在于:没有足够多高质量的物理交互数据。要打破这个瓶颈,唯一的路径就是用海量的数据喂养模型,让机器人在无数次的交互中学会泛化能力。这个逻辑和大语言模型的进化路径一致,只是两者需要的数据天差地别:大语言模型之所以聪明,是因为它消化了互联网几十年积累的海量文本数据,而机器人要变聪明,则需要真实物理世界中包括视觉、触觉、运动轨迹、空间位置等多维度的庞杂数据去喂养。
与自动驾驶面对的高标准场景如全国统一的交通规则、高度标准化的操控逻辑,因而数据采集相对规范统一不同,机器人面对的是家庭、商超、工厂等非标准化的场景,每一个场景、每一个物体、每一个动作都可能存在差异,这让数据采集的难度指数级上升。数据荒,已经成为制约整个具身智能行业发展的瓶颈。
觅蜂科技董事长及CEO姚卯青在接受蓝鲨财经社等媒体采访时透露,ChatGPT5的训练数据达100亿小时,具身智能的有效数据量只有50万小时 ,差距达两万倍。如果说语言大模型已是大学生的话,那具身智能大模型就还是一个小婴儿。所以很多机器人公司融到钱之后,最先做的一件事就是:买数据、采数据。
数据“卖水”人瞄准了这一产业痛点。
4月16日,京东和智元机器人旗下的觅蜂科技各自拿出了一套关于具身智能(物理AI)数据的解决方案:京东在全球首推覆盖“采、存、标、训、评、仿、测”全链路的具身智能数据基础设施;觅蜂科技要做“一站式物理AI数据服务平台”。

图源:觅蜂科技CEO姚卯青
这两家企业在同一天发布的方案,揭示了一个正在发生的事情:具身智能行业的核心瓶颈已经从硬件本体(“小脑”)快速转移到驱动智能决策的高质量训练数据(“大脑”)。业内人开玩笑说,卖机器人本体的企业不一定能快速实现盈利,但数据“卖水”的生意可能最先跑通。

图源:网络

具身智能数据生意市场规模或超100亿元
数据标注并不是什么新鲜生意,早在2014年前后深度学习、推荐算法兴起的时候,就催生了一大批数据标注工厂。
当时它们主要给百度、抖音这样的互联网公司提供服务,通过人工标注图片和视频来训练算法。也有影视和游戏类的公司,用动作捕捉设备采集人体动作数据,用来制作电影特效和游戏动画。但这些早期的数据,无法满足机器人训练的数据需求——传统数据标注大多用于内容AI,与物理AI的训练逻辑不一定相同;影视动作捕捉则更多追求视觉效果,而不是让机器人复刻动作。所以很多机器人公司发现,买回来的数据要么精度不够、要么场景不匹配,不能直接用来训练具身智能大模型。
市场上没有足够多高质量的数据,一些头部机器人公司便亲自下场做数据业务。比如智元机器人就拆分出觅蜂科技,专门打造一站式物理AI数据服务平台;京东也发布了覆盖“采、存、标、训、评、仿、测” 全链路的具身智能数据基础设施;还有一批从自动驾驶、人工智能实验室出来的初创团队,也纷纷涌入这个赛道。
目前行业内的机器人数据主要分为三类,各自的定价和用途也有明显区别。其中,仿真数据在虚拟环境中生成,主要用来补充一些罕见的长尾场景,尚未形成大规模的流通市场,价格也不透明;通过穿戴设备采集人类动作数据的无本体数据,成本低也更易规模化,收敛状态下价格大概是真机数据价格的三分之一到二分之一。
精度最高的是真机数据——实体机器人实际操作采集的数据,最适合用来训练落地场景的模型,市场价在每小时 500-1000 元之间。这个价格听起来不算太贵,按这个价格测算,如全行业一年能产出100万小时的有效数据,对应的市场规模是10亿元;如果有效数据产出提升到1000万小时,就是100亿元的市场规模。姚卯青告诉蓝鲨财经社,现在整个物理AI数据处于“有多少买多少”的供不应求的状态。
因此,京东和觅蜂都把千万小时级产能定为目标。姚卯青表示,2026年觅蜂将实现千万小时级数据产能,目标在2030年达成百亿小时级数据产能,共建全球最大物理AI数据生态。京东也表示,要构建全球规模最大的具身智能数据集采中心,在两年内积累1000万小时人类真实场景视频数据。
为了快速放大产能,京东和觅蜂都采用轻资产的众包模式,这和美团、滴滴搭建的骑手和网约车司机平台的运营逻辑相似。
京东推出了自研的可穿戴式超高清采集终端JoyEgoCam,计划发动最多60万人进行“人类史上规模最大的数据采集行动”。这个目标完成起来不难,京东集团2025年员工数超90万,只要京东创始人刘强东一声令下就可以给京东的快递小哥、外卖骑手等提供一个增收的副业。

图源:京东黑板报
觅蜂不自己大规模建设数据采集中心,但有一个1-200人团队,负责打造数据采集“样板间”,同时给合作伙伴提供统一的标准、系统和运营管理模板,吸引各地合作伙伴加盟。合作伙伴在全国自建团队、采购设备完成数据采集,觅蜂科技负责派发订单、管控质量和对接客户。这种模式,不仅能让觅蜂科技迅速扩张产能,还能推动智元机器人硬件的销售——合作伙伴要采集真机数据,需要采购智元的机器人和相应的设备。
姚卯青透露,千万小时目标级的具身智能优质数据需要铺设1万台采集终端。如此,光是觅蜂的合作伙伴就能帮智元机器人多卖1万台机器人(宇树科技2025年才卖出5500台人形机器人)。这个模式跟比亚迪新能源汽车一开始主要卖给出租车公司类似。

图源:觅蜂科技
不过,这个快速发展的行业,依然还面临很多挑战。如机器人场景的非标准化,导致数据采集的质量参差不齐;很多地方的数采中心存在重复采集、低效运营的问题;无本体数据虽然采集效率高,但天生存在精度不足的缺陷;整个行业也还没有形成统一的数据标准,不同平台采集的数据很难跨平台复用……但这些痛点也恰恰是这门数据生意的壁垒。
姚卯青表示,现在的具身智能就像是大模型2017年、2018年刚出现时的状态,大家已经看到一条路径,但还没有看到完整的智能涌现的雏形,机器人要实现真正的通用智能,至少还有四五年的路要走。这也意味着,行业对优质数据的需求会长期存在,而且会越来越旺盛。
原文标题 : 具身智能融资超300亿,数据“卖水”生意先赚钱了


分享














发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论