苹果决定删掉一个单词

新闻资讯   2023-07-21 13:07   67   0  
(给程序员零距离加星标,了解项目开发.)

粉丝福利:小编会从今天留言中抽选幸运小伙伴赠送现金红包,感谢大家一直以来的支持!文末见喽!


“Hey Siri”要成为历史了。


今年 6 月,iOS 17 发布开发者版本,其中一个很有意思的改动是“Hey Siri”将没有“Hey”了——用户仅需说“Siri”就能唤醒语音助手。


但就是这么一个简单的变化,却愁坏一大堆程序员。从去年年末消息放出到现在将近半年,iOS 依然没有正式更新该功能。拿走一个“Hey”,对语音助手来说有多难?


为什么不要“Hey”了?


对着智能音箱或语音助手喊“Hey Siri”和“小爱同学”,这都叫做“唤醒词”,目的是让智能音箱知道你要开始对它说话下达指令了——这就像过年回家,你奶喊你:嘿,狗剩~赶紧把院里的鸡喂了去!


如下图所示,语音助手的工作分为四个模块,像人一样,它也需要先听到语音、理解语音、才能做出反应并通过语音反馈给用户。


语音助手的工作模块|作者提供


其中“唤醒质量”是衡量语音助手好坏的重要指标,业内一般通过两个标准来衡量。第一项是识别的准确率,比如一共说 1 万次唤醒词,能成功识别出多少次。在实际用户数据下,这需要能达到 99% 左右。第二项是误唤醒率,在持续语音输入的环境下,24 小时内误唤醒的次数。这个指标跟具体播放的内容有关,但一般一天内要少于 2-3 次。


目前业内公司采取用特定的唤醒词来触发语音助手的方案,比如苹果语音助手 Siri 的唤醒词为“Hey Siri”,小米的是“小爱同学”,阿里的是“天猫精灵”,百度的是“小度小度”,亚马逊 Alexa 的是“Alexa”、“Amazon”、“Computer”、“Echo”、“Ziggy”(是的这五个都是它的唤醒词)。


Computer是Alexa的唤醒词|Giphy


唤醒词音节越多越复杂,唤醒成功率就会越高,误唤醒率就会越低。但是,在实际使用当中,更短的唤醒词更受用户的喜爱,特别在用户急于发出指令时。


像三星语音助手的唤醒词是“Hi Bixby”(大致发音为:嗨 碧克斯碧),由 5 个音节构成,但是大量的用户在使用中会减少一个音节,发音为“嗨 碧克斯”或者“嗨 碧斯碧”。


2018 年,微软就将旗下语音助手 Cortana 的唤醒词由“Hey Cortana”改为“Cortana”,现在轮到 Siri。“Hey Siri”由三个音节构成,“Siri”由两个音节构成。虽然只是少一个音节,但也是语音助手升级的必经之路。


那之前“Hey”这么一下为了啥?


可是越短的唤醒词,越容易跟其他词混淆,与“Siri”具有类似发音的词汇很多,比如 Syria(英文:叙利亚)、Sirie(英文:人名),Sire(英文:陛下),容易产生误唤醒。为了提升唤醒的准确性,音节最好丰富一点。


其实哪怕是丰富些的“Hey Siri”,也有很多用户抱怨在说“History”(英文:历史)时,会误唤醒出 Siri。


此外在噪音较大,或者手机离说话人较远的情况下,“Siri”的第一个音素,即发音类似于“斯”的部分(见图 1 绿框),声音频率较高——频率高的声音衰减快,容易与环境噪音混淆。这意味着在用户开车,听广播,看电视或者远距离呼叫 Siri 时,Siri 可能更难唤醒。


Hey Siri 音频及其频谱图|作者提供


而“Hey”是包含一个较大能量的低频发音,可以将比较短而且能量小的其他音素(主要指 Si 和 Ri 这两个)与噪音区分开来。


你是省事了,Siri 可费了劲


关于发音相近的词导致的误唤醒问题。一种方案是使用对比学习(contrastive leaning)等方法,刻意消除易混淆词语的误唤醒。其原理类似于,单独拎出来“History”和“Syrian”等音频,告诉唤醒模型,这些发音是错的!


但这种方法必须在事前由人来找出容易混淆的单词,有一定局限。


另外一种解决误唤醒的方案是通过语音识别以及语义信息的分析,综合判断用户的发音是否意图在唤醒手机语音助手。例如“Hey Siri”发音虽然与“History”相近,但是用户在说出“Hey Siri”之后的内容,大概率与说出“History”之后的内容有很大差异。


通过核对唤醒词之后的语音,可以让语音助手在一些聊天场景中“保持冷静”,比如当你和朋友聊天刚好提到 Siri,但并不是为了唤醒它时。


你可以试下唤醒一屋子的语音助手|Giphy


使用声纹识别技术也可以提高唤醒的准确性。类似于指纹识别通过每个人的指纹区分用户,声纹识别也可以通过用户发音特征的不同,实现对用户的区分,让语音助手只对机主的声音作出反馈,并忽略掉其他人的语音指令。


在开启 Siri 的时候,需要说五段话,就是在完成声纹识别注册这一步。


此外,对开发者而言,去掉“Hey”,还要死掉不少脑细胞。比如有的用户在闲暇时会说“Good morning Siri”,或是在使用完语音助手之后说“Goodbye Siri”;有时用户唤醒语音助手好几次没成功时,还会说“Come on siri”,这种时候要不要唤醒?


从产品经理的角度考虑,最优方案当然是听懂用户的所有意图,比如“Goodbye Siri”意味着不需要唤醒,而“Good morning Siri”意味着用户想要沟通。但由于语音唤醒模型比较简单,功能没那么强,一直运行也比较耗电,所以大部分产品会选择一刀切——要么都唤醒,要么都不唤醒,但这又破坏了用户体验。


根据目前放出的 iOS17 开发者版本来看,苹果暂时不支持“Good morning Siri”,“Come on Siri”等情况下的唤醒。


ChatGPT 会取代语音助手么?


微软 CEO 萨蒂亚·纳德拉曾直言不讳语音助手的“愚蠢”:“无论是 Cortana、Alexa、Google Assistant 还是 Siri,这些语音助手笨得像块石头。”


与最新最热的生成式聊天 AI 相比,语音助手似乎是上个时代的产物,它们只能回答简单直接的指令,从数据库选一些已有的东西来语音播报,还常常出错;而 GPT 们可以生成小说,讲一个世界上曾经没有的笑话,应付人类各种的语焉不详,跟你谈笑风生。


甚至成为你的朋友|Giphy


实际上,语音助手使用的也是深度学习模型,只是数据量和计算需求没有 ChatGPT 这类大语言模型大。短期来看,大语音模型可以替代语音助手工作模块中语义理解的功能。对语义理解模块之前的语音唤醒和语音识别影响有限。但是更好的语义理解,也能在一定程度上修复前面两个模块带来的错误。


目前亚马逊已表示要用大语言模型给旗下语音助手 Alexa 做升级,阿里也宣布未来所有产品都将接入“通义千问”大模型,其中也包括天猫精灵。


可能在一段时间之后,手机中的语音助手还可以借助 ChatGPT 综合分析用户的历史信息,并结合用户所处的场景,更准确地了解用户的意图,那样就可以做到无需唤醒词的人机自然对话了。


 一个AI 

我听到你意念叫我了。


作者:魏浩然

编辑:睿悦



本文来自果壳,未经授权不得转载.

如有需要请联系[email protected]

- END -

1、这些网站小众又有趣,免翻可用 !
2、微信和QQ都不敢有的功能登上热搜,官方安抚:不会推出
3、知乎匿名功能,下线了!
4、50多年前,大神在操作系统中埋的雷,快要爆了......
5、新版QQ正式发布 没有Q盾
6、华为大模型登Nature正刊!审稿人:让人们重新审视预报模型的未来
7、AI智能体卷爆大模型!AutoGPT等4大Agent打擂,「西部世界」谁将成为软件2.0?
8、杀疯了!AI 绘画再升级,恐怖如斯!


更多精彩等待你的发现
点分享
点点赞
点在看

文章引用微信公众号"程序员零距离",如有侵权,请联系管理员删除!

博客评论
还没有人评论,赶紧抢个沙发~
发表评论
说明:请文明发言,共建和谐网络,您的个人信息不会被公开显示。