谷歌发力AI搜索，视觉检索+识别会成主流？AR眼镜也要东山再起？

2022-05-13 16:50

德高行知情郎

关注

04谷歌AI语音助手Google Assistant

手机带AI语音助手，已经成了行业惯例。

国内比较成熟的就是百度语音助手小度，能帮助用户处理一些简单的操作指令。

谷歌的AI语音助手则是Google Assistant，谷歌称，在AI对话能力技术领域，全球每天有7亿人都在使用Google Assistant。

在开发者大会上，谷歌发布了“Look and Talk”功能，用户不再必须通过“Hi Google”唤醒设备。用户可以通过注视并直接讲话与语音助手进行交流。

你只需要看着设备屏幕上的前置摄像头，并说出需求，语音助手就会进行应答。

另外，用户可以直接通过一些快捷短语控制语音助手，进行一些事项的处理，比如上个闹钟、关个灯。

谷歌的核心目的，就是让用户可以与语音助手交互的更自然。

值得一提的是，在开放式对话处理方面，谷歌进一步优化了神经网络模型，语音助手甚至可以对非连续的对话进行理解。

比如用户说话的时候即使磕巴、语句断断续续，语音助手还是可以听懂用户的意思。

▲AI会去掉语句中的“停顿”和“卡壳”

去年谷歌发布了生成语言模型LaMDA，谷歌今年将其迭代为LaMDA 2，并向一些谷歌员工开放测试。

LaMDA甚至学会了“想象”，比如当用户说，“想象世界上最深的海是什么样子”，LaMDA会找到马里亚纳海沟。

此外，用户还可以与LaMDA围绕某一话题展开讨论，LaMDA会一直围绕这一话题进行回答。

比如讨论关于“狗”的话题，LaMDA的回答都会围绕狗来展开。

谷歌在发布会上也提到了近期发布的PaLM大模型，该模型包含5400亿参数，它可以解答数学问题，甚至可以解释一个笑话。

PaLM可以用没有训练过的语言回答用户提出的问题，打破语言的边界。

谷歌在大会上宣布，他们将为谷歌云客户提供全球最大的开放机器学习中心，该数据中拥有9 exaFLOPS的算力。

另外，Android 13今年发布。

05谷歌手机

大家比较的关心也是这个。

首先是谷歌Pixel 6a，它是旗舰Pixel 6的“青春版”，依旧是谷歌自研芯片Tensor ，也依旧支持5G，还有Android 13系统。

外观设计类似，但看起来没那么高端（应该是塑料材质），背后是1200万像素的双镜头系统，价格更低了只要449美元起，走的是平民廉价路线。

有一说一，谷歌这思路是挺政治正确的，在中高端市场，苹果在美国的统治力过大，死磕没必要，不如学当年的小米，继续走低价倾销策略，专注低端市场扩销量是真。

这手机7月21日预售，7月28日上市。

这款手机跟之前所有Pixel手机一样，是Android系统和刚才讲那一大票AI技术＋算法的硬件体现；或者说是谷歌技术的硬件躯壳。

06新款AR眼镜

在开发者大会末尾，公司透露，它正在开发一副新的增强现实智能眼镜，旨在“打破沟通障碍”。

外形和普通眼镜类似，减少了佩戴者的突兀感。

功能方面，谷歌AR眼镜可以直接看到翻译在眼前的语言，非常酷。相当于直接给你加字幕解读外文影视剧！

但谷歌没有透露该设备的具体名称，也没有说什么时候会向消费者发布。

谷歌AR眼镜天天在讲故事，讲了好多年，就是没看见好的应用产品，大家等的黄花菜都凉了。

这行业竞争也激烈，Meta、苹果、三星、微软等科技巨头都陆续透露正在研究或者即将推出AR眼镜产品。

不过，据媒体报道，谷歌之前收购了Raxium，这是一家专注于开发针对AR／VR／MR设备应用的单片集成式RGB Micro LED微显示器公司，很明显，谷歌收购这家公司也是为了提高AR设备的适用性，看来，这次人家有备而来。

知情郎专门查了下公司专利，在德高行全球专利数据库中，关于google的AR眼镜专利，中国专利43件，包括发明公开21件、发明授权7件、外观设计15件。美国专利124件，包括发明公开60件、发明授权57件、外观设计7件。

看了眼谷歌4月底公布的最新智能眼镜专利，这专利除了赋予眼镜用户传统的所示视图外，还增加了将信息（例如，数字图像）叠加至视场并基于例如光学头戴式显示屏（OHMD）、兼具透明头戴式显示屏（HUD）嵌入式无线眼镜进行AR视图覆盖，总而言之，现代智能眼镜实际上可以是运行独立移动应用程序的可穿戴电脑，并能支持用户通过免提、自然语言语音命令以及触屏功能按钮与互联网通信。

外媒的原话是：谷歌正在开发的智能眼镜兼具了AR功能，可呈现融合了真实和虚拟图像的增强现实视图，与谷歌之前推出的智能眼镜相比，显然这款眼镜具有更好的性能，其配置的高质量摄像头模块和3D传感模块将在虚拟图像与现实世界的融合中发挥着关键作用。

至于现实效果，谁用谁知道！没见过成品，啥都不说！

07视觉搜索查询的智能系统

分享个谷歌AI搜索技术研发方面的最新专利，视频检索＋识别是它最新发力点。

一般而言，本公开涉及一种计算机实现的视觉搜索系统，可以用于检测和识别视觉查询中的对象或与视觉查询相关的对象，然后提供响应视觉查询的更个性化和／或智能的搜索结果（例如，在增强视觉查询的覆盖中）。

例如，用户可以提交包括一个或多个图像的视觉查询。在视觉查询中或与视觉查询相关，各种处理技术（诸如光学字符识别（OCR）技术）可以用于识别文本（例如，在图像、周围图像中等）和／或各种对象检测技术（例如，机器学习对象检测模型等）可以用于检测对象（例如，产品、地标、动物、人类等）。

可以识别与检测的文本或对象（或多个）相关的内容，并可以将其作为搜索结果提供给用户。因此，本公开的方面使得视觉搜索系统能够更智能地处理视觉查询以提供改进的搜索结果，包括更个性化和／或考虑情境信号的搜索结果来解释视觉查询和／或用户搜索意图的隐式特征。

本公开的示例方面响应于视觉查询提供了更智能的搜索结果。

视觉查询可以包括一个或多个图像。例如，在视觉查询中包括的图像可以是同时捕获的图像，也可以是先前存在的图像。

在一个示例中，视觉查询可以包括单个图像。在另一示例中，视觉查询可以包括来自大约三秒视频捕获的十个图像帧。

在又一示例中，视觉查询可以包括图像的图像库，例如，包括在用户的照片库中的所有图像。

例如，诸如库可以包括用户最近捕获的动物园动物的图像、用户不久前捕获的猫的图像（例如，两个月前）以及用户从现有来源（例如，从网站或屏幕捕获）保存到库中的老虎的图像。这些图像可以代表用户的一组高亲和力图像，并体现（例如，通过图形）用户可能对类似动物的事物具有“视觉兴趣”的抽象想法。

任何给定的用户都可能有许多这样的节点集群，每个节点集群代表的是无法很好地被词捕获的兴趣。

根据一个示例方面，视觉搜索系统可以构建并利用用户中心视觉兴趣图来提供更个性化的搜索结果。在一个示例使用中，视觉搜索系统可以使用用户兴趣图来过滤视觉发现通报、通知或其他机会。

因此，在示例性实施例中，在搜索结果在查询图像的增强覆盖中呈现为视觉结果通知（例如，在某些情况下可称为“闪光（gleams）”）的示例性实施例中，基于用户兴趣的搜索结果的个性化可能特别有利。

更具体地，在一些实现中，视觉搜索系统可以包括或提供增强覆盖用户界面，用于为搜索结果提供视觉结果通知，作为视觉查询中包括的图像的覆盖。

例如，视觉结果通知可以在和与搜索结果相关的图像部分相对应的位置提供（例如，视觉结果通知可以显示在与对应搜索结果相关的对象的“顶部”）。因此，响应于视觉搜索查询，可以识别多个候选搜索结果，并且多个候选视觉结果通知可以分别与多个候选搜索结果相关联。然而，在底层视觉搜索系统功能强大且范围广泛的情况下，大量候选视觉结果通知可能可用，使得所有候选视觉结果通知的呈现将导致用户界面混乱地拥挤或以其他方式不希望地模糊基础图像。

因此，根据本公开的一个方面，计算机视觉搜索系统可以构建并利用用户中心视觉兴趣图来基于观察的用户视觉兴趣对候选视觉结果通知进行排名、选择和／或过滤，从而提供更直观和简化的用户体验。

在一些实现中，用户特定兴趣数据（例如，可以使用图表示）可以至少部分地通过分析用户过去参与的图像随时间聚合。

换言之，计算系统可以通过分析用户随时间参与的图像来尝试理解用户的视觉兴趣。当用户参与图像时，可以推断图像的某些方面是用户感兴趣的。因此，可以在用户特定兴趣数据（例如，图）中添加或以其他方式标注包括在此类图像中或与此类图像相关的项（例如，对象、实体、概念、产品等）。

【转载请注明德高行·知情郎】

原文标题 : 谷歌发力AI搜索，视频检索+识别会成主流？AR眼镜也要东山再起？

<上一页 1 2