语言识别

赋予大模型“眼睛”：视觉语言模型带来全新的可能

芝能智芯出品视觉语言模型（VLM）正成为人工智能发展的关键节点。通过将大语言模型（LLM）与视觉编码器相结合，VLM 不再局限于传统计算机视觉的封闭任务框架，而是能以自然语言为接口，对图像、视频和文本进行深度理解和灵活生成

视觉语言模型 VLM 2025-05-28

迈向人类级驾驶智能：VLA视觉语言的行动模型

芝能科技出品2025年，由于安全和强监管的作用，辅助驾驶行业正处于黎明前的黑暗。面对复杂的现实路况、多样的人类行为模式，以及传统AI在泛化和理解能力上的瓶颈，理想汽车在《AI Talk第二季》系统性的阐述了“VLA（视觉语言行动模型）”

智能驾驶视觉 2025-05-15

聊聊MoA（混合智能体架构）：如何激发LLM潜力并掀起语言模型协作革命？

全文约 3500 字，预计阅读时间约 9 分钟近年来，大型语言模型（LLMs）在自然语言处理领域掀起了一场风暴，从对话生成到复杂任务推理，它们的表现令人惊叹。然而，单个模型的性能总有瓶颈，训练成本高昂且资源需求巨大

MoA 模型 AlpacaEval 2025-05-13

港口集装箱箱号如何实现高精度自动识别？

在现代化港口和物流管理中，集装箱箱号的快速、准确识别是提升作业效率的关键环节。传统人工记录方式效率低、易出错，而孚为智能推出的高清集装箱号码自动识别系统，通过先进的OCR技术和智能图像分析，实现了箱号的全自动采集与数字化管理，为港口自动化升级提供了核心技术支持

港口集装箱箱号自动识别集装箱动态识别 2025-04-23

rfid技术是如何应用在集装箱自动识别的呢?

在集装箱物流管理中，快速、准确地识别集装箱号码是提升港口、堆场和海关效率的关键。孚为智能将RFID（射频识别）技术与高清OCR识别系统相结合，进一步优化了集装箱自动识别的可靠性和自动化水平，为行业提供了更高效的解决方案

集装箱箱号识别技术集装箱编号识别系统 2025-04-18

大语言模型火爆的今天，我们为什么还要拥抱世界模型？

图灵奖得主杨立昆认为，目前AI界持续追捧的大语言模型并非十全十美，它隐藏着四个难以突破的致命弱点：一是理解物理世界，二是拥有持久记忆，三是具备推理能力，四是复杂规划能力。而能够克服第一个“致命弱点”的技术，叫作世界模型

AI 大语言模型 2025-04-11

AI语言学习应用Speak投资人谈投资AI应用：看到toB和toC融合的机会

“Accel主要支持那些为用户带来5到10倍体验提升的产品及其团队。” 作者：罗宾编辑：tuya出品：财经涂鸦（ID：caijingtuya）《财经涂鸦》获悉，近日，

Speak Quazzo Accel 2025-03-07

机构看衰专家批评项目艰难，大语言模型会不会成为即将破碎的AI泡沫？

大语言模型不再被视作通往AGI的桥梁，生成式AI未来的发展方向在哪里？已经烧掉5000亿美元还要继续耗费资源的大语言模型，后面的路还走得动吗？烧钱、耗费资源、难以盈利，被持续唱衰的大语

AIGC 生成式AI 大语言模型 2024-10-15

技术创新：苹果在闪存上存储大型语言模型（LLM）引领未来AI发展

（本篇文篇章共1135字，阅读时间约1分钟） 2023年12月22日，据多家媒体报道，苹果正积极探索在闪存上存储大型语言模型（LLM）的技术创新，并计划将其引入iPhone、iPad和Mac等设备，以在资源有限的环境中提高人工智能（AI）的运行效率

苹果闪存 2023-12-22

语言模型两大巨头Grok与ChatGPT-4有什么不同？

在当今飞速发展的人工智能行业中，有两家巨头在语言模型领域脱颖而出：Grok和ChatGPT-4。两者都因其强大的功能而备受关注，但哪一个才是真正的佼佼者呢？在本文中，我们将深入探讨两者的优缺点，探讨它们的使用案例、初学者与经验丰富的用户之间的易用性，以及如何从各自的模型中获益

Grok ChatGPT-4 语言模型金融医疗 2023-12-12

年度词汇公布，AI正在“入侵”人类语言

2023年，除了AI还没有一个词能达到这种全民皆知的程度。几乎人人都在说AI，人人都在用AI。而现在，有关“人工智能”的词汇，已经入选了全球各大词典的“年度词汇”。有哪些人工智能相关的词，有幸当选年度词汇呢？我们一起来看下

AI 词典牛津剑桥 2023-12-06

业绩亏损股价暴跌，科大讯飞的问题是幕后推手，还是大语言模型？

10月最后一个交易日，科大讯飞股价刷新今年下半年新低纪录。自10月24日因科大讯飞学习机存在“扭曲历史等违背主流价值观内容”的事件发酵，导致其星火认知大模型V3.0发布会结束后，股价出现了大幅度暴跌。

科大讯飞大模型大语言模型 2023-11-06

胜过GPT-4的大型语言模型Claude2面世

文/陈根本周二，由OpenAI前研究副总裁Dario Amodei等人于2021年创建的科技公司Anthropic，正式推出新版人工智能聊天机器人Claude2，并通过了Slack、Notion和Quora等多家企业的测试

AI Anthropic Claude2 OpenAI 聊天机器人 2023-07-15

大语言模型，救不了“网络暴民”

语言可以杀人——网络时代，相信没人会否认这一点。语言攻击，是最具代表性的网络暴力之一。谩骂刚失去儿子的母亲，诋毁女孩的粉色头发，嘲笑男性的气质“太娘&rdquo

AI 大语言模型 2023-07-12

使用 CNN 进行面部情绪识别

面部表情是人类之间交流的重要方式。在人工智能研究中，深度学习技术已成为增强人机交互的强大工具。心理学中面部表情和情绪的分析和评估涉及评估预测个人或群体情绪的决定。本研究旨在开发一种能够使用卷积神经网络（CNN）算法和特征提取技术预测和分类面部情绪的系统

CNN 面部情绪识别 2023-05-18

用AI回忆起曾被忘却的语言

语言是文明的DNA，然而联合国教科文组织调查数据显示，全球有七千多种有记录的语言，超过400种濒危，两千种极危。中国语言种类繁多，目前有130 多种语言，有25种语言使用人口已不足千人。以前的少数

AI ocr光学智能识别 2023-03-28

或许，更多的机会在于中国的大语言模型生态

相信这两天，很多人都注意到了这样一条新闻：苹果公司上周阻止了一款使用ChatGPT功能的电邮应用的更新，因为担心其可能生成不适合青少年儿童的内容。除了苹果之外，还有许多美国科技圈大佬表达了对ChatGPT生成内容的担忧

ChatGPT 百度 2023-03-06

使用 OpenCV-SeventhSense SOTA 模型进行人脸识别

OpenCV 最近发布了与 SeventhSense 合作的人脸识别 SDK。它是 NIST 人脸识别挑战赛（2022 年 3 月）的前 10 名模型，速度极快且无需 GPU。在 opencv－seventhsense FR webapp 中，你可以创建一个集合并将组织中的人员聚合到组中

OpenCV 人脸识别 2023-02-01

使用 TensorFlow Lite 在 Android 上进行印地语字符识别

介绍如果你曾经想构建一个用于文本识别的图像分类器，我假设你可能已经从 TensorFlow 的官方示例中实现了经典的手写数字识别应用程序。该程序通常被称为计算机视觉的“Hello World”，它是 ML 初学者构建分类器应用程序的一个很好的起点

TensorFlow 计算机视觉 2022-11-22

Meta已开发闽南语AI翻译，解决非文字语言翻译难题

近日，Meta宣布推出口语翻译系统，Meta CEO扎克伯格在facebook上发布demo影片，首次在线上通过该翻译系统和员工对话。在demo影片中，扎克伯克说英文，来自台湾的Meta工程师用闽南语，通过该口语翻译系统，两人无障碍交流，且翻译都非常地道

Meta AI翻译语音识别 2022-10-20

专利看腾讯声纹识别技术有进步吗，声音解锁功能不再鸡肋！

知情郎·眼｜侃透公司专利事儿今天聊声纹识别。即如何鉴伪声音。顾名思义，即通过声音来识别出来“谁在说话”，是根据语音信号中的说话人个性信息来识别说话人身份的一项生物特征识别技术。微信也有类似声纹解锁功能

声音解锁腾讯声纹识别 2022-10-13

用机器学习识别排球比赛的阶段

排球比赛的阶段用人工智能分析排球比赛有多种方法。我过去常常跟踪球，以便将比赛时间从整个视频中分离出来。另一种方法是确定游戏阶段，并根据阶段流程做出决策。让我们假设排球比赛包括4个阶段：· 没有开始。没有人或少数人在场上徘徊

机器学习 2022-09-13

Meta免费开源AI模型NLLB-200！可精准翻译超过200种语言

近日，Meta公司宣布将免费开源旗下AI系统NLLB-200 ，该系统是全球第一个能翻译200种不同语言的单一AI模型，将为超过10亿人提供高品质翻译内容。Meta公司称，将会把NLLB-200对外开源，同时向非营利机构提供20万美元的资助，以开发该技术应用于更多应用程式上

Meta NLLB-200 AI模型多语言翻译 2022-07-08

MIT最新AI面部识别研究：AR技术协助情绪侦测

“自闭症成人的感知神经连接可能是“嘈杂的”（noisy）或低效的。”作者：Claire编辑：tuya出品：财经涂鸦（ID：caijingtuya）对大部分健康的人来说，识别人脸上表达的情绪很容易。微笑可能意味着幸福，而皱眉可能意味着愤怒，但自闭症患者在完成这项任务时有很大的困难

AI 面部识别 AR 神经网络 2022-06-24

使用Python的人脸识别系统

介绍人脸识别不同于人脸检测。在人脸检测中，我们只检测了人脸的位置，在人脸识别任务中，我们识别了人的身份。在本文中，我们将在人脸识别库的帮助下，使用python构建一个人脸识别系统。市场上有许多用于人脸识别的算法

Python 人脸识别 2022-05-30

解锁随身“ID”，思必驰声纹识别自有奇招

20世纪40年代，“声纹”概念首次在Bell实验室被提出。1966年，美国法院采用“声纹”进行取证后，声纹技术开始在司法场景应用。伴随声纹技术在金融行业使用的标准颁布，声纹技术落地应用迎来了开篇。声纹识别又称“说话人识别”，与语音识别同属于语音前端信号处理环节

声纹识别 2022-05-19

谷歌发力AI搜索，视觉检索+识别会成主流？AR眼镜也要东山再起？

知情郎·眼｜侃透天下专利事儿今年的谷歌开发者大会（Google I／O 2022）上有什么新玩意、硬科技？谷歌翻译、谷歌多重AI搜索、保护性计算、Android 13、谷歌硬件。在2小时的主题演讲上，谷歌梳理了自己现有AI计算的进度，并演示了关键技术应用

谷歌 AI搜索视频检索 AR眼镜视觉搜索 2022-05-13

自然语言处理序列模型——CRF条件随机场

在之前对序列模型中的HMM（隐马尔可夫模型）进行掌握以后，有必要对另外一个序列模型CRF进行掌握，因为这两个模型都是自然语言处理序列模型中的核心模型。在之前介绍的概率有向图模型，如HMM，即贝叶斯网络

自然语言人工智能序列模型 2022-04-26

图像识别型"智能无人收银系统"的应用化实验

丸红株式会社（以下简称“丸红”）与京瓷株式会社（以下简称“京瓷”）就通过图像识别型“智能无人收银系统”（以下简称“本系统”），实现用于超市图像结算服务的应用化进行实验，签订了基本协议书。今年夏天将首先在神奈川县的超市店铺进行实验

图像识别无人收银系统 2022-04-19

刷新中文命名实体识别SOTA，华为云论文入选国际顶会NAACL 2022

4月7日，自然语言处理领域国际顶级学术会议NAACL 2022（The North American Chapter of the Association for Computational Ling

华为云自然语言 AI 2022-04-13

自然语言处理序列模型——HMM隐马尔可夫模型

在上一篇中主要讲了对于文本语料的提取和预处理的过程，接下来就要进入到核心步骤，即对于处理模型的掌握，处理模型这块的篇幅会很长，对于不同的模型，其优缺点各不相同，因此有必要对这一块进行一个全方面的掌握。在深度学习技术还未应用到自然语言处理领域中之前，在自然语言处理领域中最通用的模型都是基于概率统计的

自然语言处理 2022-04-13

生物识别技术“百花齐放” | 掌纹识别侵犯性更低！

掌纹识别是一个新兴的生物特征识别技术，凭借其相对于人脸和指纹等其他生物特征的优势，迅速得到了广泛的关注。掌纹相比指纹有着丰富的纹理和更广的特征空间，因此可以实现更高的识别率和更大的用户基数；而且与人脸

生物识别技术掌纹识别 2022-04-07

阿里AI上岗南京钢铁精准识别发丝级钢板裂纹

细如头发丝的裂纹会严重影响钢板质量，其检测一直是行业老大难，需要工人踩在高温钢板上，打着电筒仔细寻找，一天走上万步，既辛苦还容易看走眼。记者昨日获悉，全国特大型钢企南京钢铁上线了AI质检系统，借助阿里

阿里 AI 2022-03-31

使用Python和docTR提取车辆识别号

VIN（车辆识别号）是一个17个字符的字符串，由数字和大写字母组成，用作汽车的指纹。它可以帮助识别任何一辆汽车的寿命，并获得有关它的具体信息。该唯一标识符在制造过程中打印在车辆的某个位置，以便人们在租车或销售等过程中需要时读取

Python 视觉检测 2022-03-25

构建自定义CNN模型：识别COVID-19

本文让我们从头开始，通过训练和测试我们的自定义图像数据集，来构建我们自己的自定义CNN（卷积神经网络）模型。我们将使用验证集方法来训练模型，从而将我们的数据集划分为训练、验证和测试数据集。在结束时，你

卷积神经网络 2022-03-01

人脸识别技术哪家强？OPPO专利解读：多帧超分与深度学习结合提升精度

知情郎·眼｜侃透天下专利事儿聊过指纹识别、虹膜识别。今天说人脸识别技术哪家强！国内做人脸识别的科技公司不少。在市场上名气比较大的如炒作了N年的AI四小龙商汤科技、旷视科技、依图科技、云从科技。当年都打

人脸识别 OPPO 2022-02-28

使用Pytesseract进行光学字符识别

概述本文，我们将使用计算机视觉技术从图像中提取文本。提取文本后，我们将在该文本上应用 OpenCV 的一些基本功能来增强它并获得更准确的结果。这个项目将非常有用，因为它可以节省从图像打字的时间和精力。范围· 对于将从图像中获取文本的大型组织而言，此应用程序可能会节省时间

光学字符识别 pytesseract 2022-02-18

Python搭建人脸识别考勤系统

介绍在本文中，你将学习如何使用 Python 构建人脸识别系统。人脸识别比人脸检测更进一步。在人脸检测中，我们只检测人脸在图像中的位置，但在人脸识别中，我们制作了一个可以识别人的系统。“人脸识别是验证或识别图片或视频中的人的挑战

Python 人脸识别 2021-12-24

腾讯公开谣言类文章识别专利，可提高整体识别率和准确度

近日,腾讯科技(深圳)有限公司公开了“谣言类文章的识别方法及装置”专利,公开号为 CN113761135A。智慧芽专利摘要显示,通过该发明,能够提高谣言类文章的整体识别效率和准确度。IT之家了解到,该专利所述方法包括:确定待识别文章的内容所归属的内容类别;当所述内容类别为目标类别时

腾讯文章识别专利 2021-12-09

人脸识别：使用Scikit-Learn构建人脸识别系统

什么是人脸识别人脸识别是将未知个体的人脸与存储记录数据库中的图像进行比较的任务。映射可以是一对一或一对多，这取决于我们是在运行人脸验证还是人脸识别。在本教程中，我们感兴趣的是构建一个面部识别系统，该系统将验证图像（通常称为探测图像）是否存在于预先存在的面部数据库（通常称为评估集）中

嵌入人脸图像 2021-12-07