北京声智科技有限公司参评“‘维科杯’·OFweek2020（第五届）人工智能行业技术创新奖”

2020-09-19 09:13

“‘维科杯’·OFweek 2020（第五届）人工智能行业年度评选”活动由高科技行业门户OFweek维科网主办，OFweek人工智能网承办，活动旨在表彰人工智能领域具有突出贡献的优秀产品、技术及企业，鼓励更多企业投入技术创新；同时为行业输送更多创新产品、前沿技术，一同畅享人工智能的未来。

2020人工智能行业年度评选“OFweek （5th．） AI Awards 2020”将于2020年9月21日－10月10日进入网络投票阶段，颁奖典礼将于10月28日在深圳举办。

目前，活动正处于火热的报名评审阶段，业内企业积极响应。北京声智科技有限公司已正式参评“‘维科杯’·OFweek2020（第五届）人工智能行业技术创新奖”。

声智是全球自主远场语音技术和多模态人工智能交互领域的开拓者，拥有声学与振动、语音与语义、图像与视频等全栈核心算法，以及开源开放的SoundAI Azero （“壹元”）人工智能操作系统，具有多模态感知、人机智能交互、内容服务聚合、数据智能分析、IoT控制和即时通讯等能力，致力于连接有价值的设备、信息与服务，让机器具有自主分析决策能力。

声智主要提供AI数字人红外测温系统、智慧电梯和安全监管平台、大屏智能语音指挥系统、智能会议转写与同传系统、跟随式智能扩声机器人、AI外呼机器人、声纹采集与识别系统、智能麦克风、智能降噪耳机、智慧办公／医疗屏、多形态虚拟数字人、物联网中台和数据服务、大数据分析和商业智能等产品和服务，面向智慧家居、智慧园区、智慧酒店、智慧社区、智慧座舱等新应用场景，提升行业的智慧化程度，释放个性化体验。声智由中科院声学所团队创立，由峰瑞、洪泰、百度、毅达和中信建投资本等10余家知名机构投资，拥有与中科院合建的声与人工智能联合实验室，发起参与10余项国家行业标准，获得100余项荣誉资质与1000余项知识产权，服务数百家知名客户、联接数千万台智能物联网设备，致力于实现“让机器更智能”的使命，达成“用科技改善生活”的愿景。

参评技术：多模态人工智能交互系统SoundAI Azero

声智自2016年成立始终专注于多模态人工智能交互系统的技术突破和应用落地。目前，人工智能产业发展已经上升到我国国家发展战略。国务院印发的新一代人工智能发展规划指出，到2020年我国人工智能总体技术和应用与世界先进水平同步；到2025年人工智能基础理论实现重大突破，部分技术与应用达到世界领先水平；到2030年人工智能理论、技术与应用总体达到世界领先水平，成为世界主要人工智能创新中心。同时国家“新基建”政策出台，以人工智能、数据中心等为代表的信息基础设施的基础技术日趋成熟，新基建对应用技术的需求也逐渐增强，将会进一步向深度应用人工智能、5G、大数据等新一代信息技术支撑传统设施转型升级发展，进而形成智能家居、智能金融、智慧城市、智能交通等行业领域的融合基础设施。自新冠疫情爆发以来，飞沫和接触传播的高传染性，催生了对无接触式智能人机交互的极大需求，目前主流的人工智能系统多采用单一的交互模式，如语音对话系统、图像识别系统，此类相对传统的系统基本无法应对复杂人机交互场景，比如红外测温场景、电梯外呼场景、智能电梯场景，类似这类场景通常需要融合视觉、听觉、手势等多种交互方式，提供多模态的智能交互，一个完备的多模态人工智能交互系统便至关重要。人工智能（AI）技术作为一种具有巨大社会和经济效益的革新性技术，伴随新型硬件产品所代表的新一代计算平台不断涌现，作为人工智能产业链上不可或缺的关键一环，多模态人工智能交互系统的核心技术突破与产业化，将改变我国一直以来存在“缺芯少魂（操作系统）”的卡脖子现状，并对于上游智能传感、智能芯片、智能制造以及下游的内容生产、智能服务等都具有技术迭代的需求和产业升级的拉动，有助于建立我国声学和人工智能领域的产业化领先地位，成为新一代人工智能发展的重要推动力量。根据市场调研，声学和人工智能的融合技术在消费电子、汽车行业、教育行业、金融行业、国防行业等累计过万亿市场，仅消费电子领域的智能音频设备，国内年市场规模就在3500亿左右，市场规模和发展潜力巨大。

技术介绍：

SoundAI Azero是声智面向个人、企业和第三方组织开放的融合多传感感知、多模态交互和类脑知识计算的新一代人工智能操作系统，致力于连接有价值的信息、服务与设备，让智能服务随处可享。Azero经过了千亿次人机交互真实场景的规模验证，可为家居、办公、车载、会议、可穿戴等20＋场景和设备提供高效的人机交互和智能决策能力。Azero集成了信息查询、内容聚合、IOT控制、即时通讯等数百项常用技能与服务，提供简单易用的技能开发工具和Turnkey软硬件解决方案，支持智能音箱、智能耳机、智能眼镜、智能开关、智能屏、机器人、AI虚拟数字人、AI音视频会议、AI语音助理等百余个场景实例，大幅降低AI技术的应用门槛和开发难度，快速满足各个行业的个性化定制需求，帮助各个行业持续提升整体效率和用户体验。

多模态人工智能交互系统SoundAI Azero，以远场语音交互和远场实时通话为技术内核，以及包括信息查询、设备控制、内容推荐、资讯服务、股票资讯、理财推荐等服务，具有精度高、速度快、兼容好、成本低的优势，在用户大规模使用的真实场景下5米远场语音和声纹的平均识别率超过95％，全链条语音对话响应速度小于1．3秒。该系统成果融合了声学感知技术、语音交互技术与人工智能技术，包括声波配网、波束形成、声源测向、噪声抑制、混响消除、回声消除、语音唤醒、端点检测、语音识别、声纹识别、自然语言处理、语义理解、语音合成、双工通话、VoIP等技术，以及根据真实场景识别深度优化的机器学习模型，搭建覆盖智能家居、智能汽车、智能会议、智能安防、智能金融、智能教育、智能医疗、智能法院、智能交通和机器人等行业领域在内的远场声学感知系统与场景语音交互平台。多传感器融合阵列的AI融合交互系统核心突破在真实场景下因空间距离、背景噪音、其他人声干扰、回声、口音等问题导致的语音识别低、用户体验差、无法感知环境等问题。为用户提供多种适应应用场景的多模态融合阵型方案，综合利用可见光与红外的人脸识别技术，通过麦克风阵列感知技术融合深度学习技术为用户提供全链条的智能语音、机器视觉相融合的交互系统，基于VoIP以及分布式处理技术，实现一对一、一对多、多对多的实时同步音视频交互通信，解决传统应用场景中存在操作不便或者繁重劳动等痛点问题，提供智能化的音视频通信体验。

该成果已成功在小米、百度、360、联想、中国移动、阿里、腾讯、华为、中国移动、中国联通、中央人民广播电台等多个爆款产品中成功落地，已得到量产验证。

参选述说／理由：

多模态人工智能交互系统SoundAI Azero持续更新和迭代技术，解决更复杂声学场景下的远场语音唤醒和识别、远场声纹识别、声视频融合交互、多人追踪和识别等影响用户体验的关键问题，以及超远场拾音与识别、局部场识别与重放等行业关键技术，不断融合声学感知技术与人工智能技术，深度完成垂直领域声学技术的优化与更新，打造以用户为中心、数据为驱动、平台为服务的完整人工智能交互技术链条。

目前，Azero系统已广泛应用于智能家居、智能汽车、智能安防、智能金融、智能教育、智能医疗和机器人等应用场景，已帮助小米、百度、阿里、华为、腾讯、中国移动、中央人民广播电台、中国移动、中国联通等众多客户户实现智能语音产品的快速开发和量产上市，占据70％以上的中国语音市场份额。StrategyAnalytics和Canalys统计数据显示，2018年，全球智能音箱销量达到8620万，其中，中国智能音箱，在阿里巴巴、百度、小米等巨头的推动下，实际出货量超过2000万。其中，小米AI音箱、小爱音箱mini、小爱音箱HD、阿里巴巴天猫精灵魔盒、百度智能音箱，都搭载了声智科技的远场智能交互系统SoundAIAzero。

本届“‘维科杯’·OFweek 2020（第五届）人工智能行业年度评选”活动将于9月21日进入网络投票阶段，欢迎各位踊跃投票！