订阅
纠错
加入自媒体

AI的数据、算法、算力“轮流坐庄”,NLP到了“数据为王”的时代

2020-05-09 08:33
智能相对论
关注

由此,我们再来理解商业机会。

数据采集与标注的公司有很多,从巨头的“副业”到AI数据专业化平台,总体而言主要玩家如图所示:

AI的数据、算法、算力“轮流坐庄”,NLP到了“数据为王”的时代

除此之外,更多中小玩家甚至几十人的草台班子数不胜数。在中国,目前全国从事数据标注业务的公司约有几百家,全职的数据标注从业者有约20万人,兼职数据标注从业者有约100万人。

易入门、难精通,而上述两大因素决定NLP数据面临巨大的挑战,做得好的就更少。

在数据“坐庄”NLP的大背景下,空出了大量的商业机会,而客观上的高要求阻却了大量低门槛入场的玩家,NLP数据相对于CV更像一个蓝海。

打破单纯“体力活”标签,NLP数据采集与标注从四个方面自我演进

有机会就总有人会进场,不久前,中国人工智能高峰论发布了中国人工智能科技服务商50强,既有商汤、旷视这种明星企业,也出现了榜单内唯一的AI数据服务商云测数据,这显示AI数据正在进入“主流圈”,在蓝海中尝试跑出独角兽企业。

当然,前提是平台能够解决好NLP数据的痛点问题。

事实上,CV的“感知”需求使得“体力活”可能就能够胜任大多数据生产工作(谁不认识一辆车、一个人呢),而“认知”的NLP数据要突围,只是“体力活”早已经不够。

至少目前来看,行业玩家在四个方面有所动作,或正在解决NLP数据痛点问题。

1、业务模式,用“定制化”迎合商业落地期的NLP

曾有媒体向Google工程师提起M-Turk的时候,他表示“我们不敢用Turk标注”,因为回收的数据良莠不齐。

众包模式(在公开平台发布任务,自由申领)是曾经的AI数据产业主流,拥有数据丰富性和多样性的优势,不过数据质量比较难以把控。在数据精细化要求的今天,很多需求方都转向了“定制化”(一对一,以项目制的方式完成交办的数据任务)服务模式。

例如,云测数据的“定制化”服务模式,跟的就是需求方复杂、精深而个性化的数据要求。具体到NLP,在数据采集上满足特定人物(老人、妇女、小孩)、特定场景(家居、办公、商业等)、不同方言的声音/文本数据采集;在数据标注上进行需求的对接、理解清楚场景化要求再分发尽量具体的规范指导(同样一句话在不同交流目的中可能需要标注不同的内容,例如“我没钱”在信贷服务中意味着潜在客户,在理财服务中则表达拒绝的态度)。

当然,众包模式也有它的优点,能够轻量化承载大量相对简单的数据需求,而场景化的定制模式则更专业,主要依靠自有员工和基地,像云测数据就在华东、华南、华北拥有自建标注基地,这种玩法显然更适合匹配客单价更高的场景化、定制化需求,NLP是典型。

2、管理流程,从“粗放制造”到“精益制造”

既然数据采集与标注很像是工厂的流水线,那么如果要提升数据的精准度,其实就如同“制造业”升级那样需要进行“粗放制造”到“精益制造”的转变,首要体现在管理流程的优化上。

无论是从平台接取任务的众包团队,还是直接对接需求方的定制化服务平台,至少,草台班子式的做法已经不适合NLP对数据的要求。

高精准度、高效率,都依赖管理流程的优化,以云测数据为例,具体做法包括这几个大方向:

标注、审核、抽检的层层把关:标注人员的结果交由另一批人进行审核,打回不合格的,最终再由质检进行抽检,大体如此,可能步骤更复杂;

人才类型的基础分类:文本、语音、图像标注人员不相互混用;

擅长场景的优先任务派发:在同等条件下,擅长对应场景的人优先派发给任务。

例会制度:如同精细化管理的制造业一样,早会、晚会、周会、月会,总结问题、提醒改进。

……

而无论如何,管理流程的事,说得再多,日常工作的落实才是最重要的。

3、职业技能,专业培训摆脱“低水平重复”

“不要门槛”意味着更低的价值,在人员个人能力上,NLP在逐渐抛弃那些“无门槛”入局的人,尤其是在特定的场景需求下。

例如,这是一个非常简单的NLP数据标注实例:

AI的数据、算法、算力“轮流坐庄”,NLP到了“数据为王”的时代

<上一页  1  2  3  下一页>  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

人工智能 猎头职位 更多
扫码关注公众号
OFweek人工智能网
获取更多精彩内容
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号