一起聊聊，智能座舱语音交互的发展现状和趋势！蜻蜓语音陪玩用户已经被锁定？

投稿用户 • 2022年9月22日 am5:33 • 网络热点 • 阅读 192

抖店动销，抖店体验分提升。抖店任何业务可添加微信：ad07668

在功能层上进行合理布局、给予用户完善的交互体验，是几乎所有产品都需要遵循的一个原则，智能座舱产品也不例外。那么智能座舱的语音交互功能，包括哪些组成环节？本篇文章里，作者针对智能座舱的语音交互设计及发展做了解读，一起来看。?之前有车企的负责人咨询当前智能座舱语音交互的现状

在功能层上进行合理布局、给予用户完善的交互体验，是几乎所有产品都需要遵循的一个原则，智能座舱产品也不例外。那么智能座舱的语音交互功能，包括哪些组成环节？本篇文章里，作者针对智能座舱的语音交互设计及发展做了解读，一起来看。

一起聊聊，智能座舱语音交互的发展现状和趋势！蜻蜓语音陪玩用户已经被锁定？

?之前有车企的负责人咨询当前智能座舱语音交互的现状和发展趋势，笔者借此做个简单的总结和归纳，以下内容将分为语音交互的唤醒、聆听、理解、播报4个部分。

一、唤醒

1. 声源定位从双音区发展到四音区

使用声源定位的目的主要有两个，第一个目的是知道是谁在说话并提供个性化服务，例如副驾说“打开窗户”，这时只有副驾的窗户会被打开；第二个目的是实现定向拾音，由于车内外环境的噪音较大，同时乘客之间的讨论和回声会影响语音交互的拾音质量，因此声源定位能让麦克风阵列锁住某个方向的声音。

双音区的意思是将座舱分为左侧和右侧，无法识别是驾驶员还是后排左侧的乘客说话，因此局限性较大。四音区可以将座舱区分为驾驶员、副驾、后排左侧和后排右侧四个区域，能较好地解决双音区的问题。

以下是腾讯腾讯AI Lab总结的各种车载麦克风阵列分布形式，及其优缺点。

一起聊聊，智能座舱语音交互的发展现状和趋势！蜻蜓语音陪玩用户已经被锁定？

2. 语音交互支持One-Shot

部分语音技术供应商支持“One-Shot”技术，这也被称为“唤醒连说”。它的意思是“唤醒词+意图识别”一体化，支持用户可以在说出唤醒词之后不作停顿，立刻说出后续需求。

例如用户直接说“Alexa帮我打开车窗”，Alexa就能直接把车窗打开。这种方式摒弃传统的一问一答的形式，极大减少用户语音操控的步骤，化繁为简，操作简便。“One-Shot”不会改变语音交互设计的任何逻辑，但它能明显提升使用时的体验。

3. 语音交互支持唤醒词+离线意图识别

离线识别就是为了解决信号不好导致指令无法执行的问题。为了控制硬件成本和体积大小，客户端的算力远不如云端，其次核心算法放在本地有被竞争对手盗取机密的可能，所以我们不可能将所有的识别技术放在本地进行。

一般离线识别主要服务于常用简单的指令，例如“打开车窗”、“调节温度”等等，它们会通过正则表达式获取关键词，匹配指令后执行。

4. 语音交互支持免唤醒指令

部分语音技术供应商支持“免唤醒”技术，例如省略“Alexa”直接说“打开车窗”，车窗会直接打开。

其实“免唤醒”正是用了唤醒词技术，只不过把默认唤醒词改为指令，新的唤醒词被命中后会直接执行相关指令。

但是，我们不能把所有的指令设置为免唤醒，首先唤醒词识别有自己的局限性，不是所有的文字都能被正确识别，其次，越多的唤醒词意味着被误唤醒的几率越高。用户对其他乘客说打开车窗时，语音系统会误以为用户对自己发出的指令从而执行了相关操作。所以“免唤醒”要慎用。

5. 语音交互支持多模唤醒

语音交互唤醒方式除了常见的唤醒词和方向盘按键，姿态追踪和眼动追踪在未来有可能成为语音交互唤醒的新方式。

在人和人的交流过程中，当A转向并看着B时，B大概率知道A要发起交流，而且A也不会先说：“你好，B”，除非两者关系较差或者场景比较微妙。

在人机交流过程中应该满足以上场景，如果智能座舱中拥有一个实体机器人或者在屏幕里有较大面积能显示一个语音助手，我们可以通过用户头部姿态的转向和注视时长判断用户是否想和语音助手发起交流，用户也有可能向语音助手挥手，以上动作触发后语音助手应该激活并开始聆听。

有读者可能会问，为什么要做这么多方式来唤醒语音助手？

因为自然交互和多模交互有个特点就是要考虑冗余的设计，用户在不同场景下有可能采用不同的方式向语音助手发起交互，例如在上车场景时用户心情较好确实有可能向语音助手挥手Say Hi，如果语音助手没有任何动静，用户的心情有可能受到打击；还有另外一个例子是小孩的交流方式是多样的，语音助手应该有相应的配合。

眼动追踪在未来有可能成为一种唤醒方式，当用户看向哪个地方并发起语音交互时，这时用户眼睛看向的地方会成为语音指令中的主语，例如仪表盘上突然出现一个红色图标，用户有可能看着它直接问这是什么意思？这时语音助手可以做相应的解答。

二、聆听

1. 全双工语音交互成为主流

持续监听可以理解为一旦唤醒语音助手，语音助手会把麦克风一直打开。用户可以一直说，语音助手会针对用户每一句话分别作出响应。

但是持续监听的体验依然存在很多问题，因为麦克风一直打开，语音助手会把所有的声音进行聆听并做出响应。假设上一轮对话未结束，这时候语音助手听到其他人说的话，误以为这是新的语音任务，会把上一轮对话直接结束并播报新的内容。

还有些具备持续监听能力的语音助手一旦听到其他声音会立刻停止播报，这对用户来说无疑是一种断断续续的体验，效果可能比单轮交互、多轮交互还要差。

目前很多车厂已经宣称自己的车配备了全双工语音交互技术，相比简单地把麦克风打开，全双工语音交互不会像持续监听一样容易被噪音打断整个对话过程。要实现以上效果，全双工语音交互需要拥有更强的抗噪能力和上下文理解能力，它能理解每一句噪音是否跟当前任务有关，并且能猜测当前任务下一轮对话是什么，这对于技术的要求非常高。

全双工语音交互可以简单地理解为真正的“边听边说”，用户一旦习惯了全双工语音交互，就很难回到以上单轮交互、多轮交互和持续监听三种交互模式，因为它们都不是自然的交互方式。

2. ASR支持自动校正

笔者发现以前自己在手机地图使用语音输入，它会根据你的口音、地理位置和历史记录等因素进行ASR的校正，以及将ASR中出现一些同音字、二义性词以及用户发音不标准或者说错的字词进行校正。

百度地图、高德地图的手机地图做得好的原因是地图是用了自己的语音交互系统，以及十多年的地图数据积累，但是车载地图的语音交互系统有可能采用的是思必驰、科大讯飞等供应商，在ASR校正时缺乏地图数据的校验导致识别准确率较低，这个问题的解决需要多个供应商一起配合才能较好地解决。

3. 声纹识别在未来有一定作用

声纹识别在聆听过程中能有效区分不同人正在说的话，对于上下文理解有一定的帮助，而且根据应用场景为车内驾乘人员提供差别化服务，但目前有可能因为技术仍未成熟暂未看到有车企使用了声纹识别技术，在未来有一定的发展空间。

三、理解

1. 支持一句话包含多个任务的理解

这是一项体现语音交互高效率的重要特性。一般来说GUI完成一项任务需要分几个步骤，语音交互可以一句话就搞定，在导航场景下用户可以说“我想去广州机场，途中先去趟超市和充电站”，语音交互可以帮助用户一次性设置三项途经点，效率提升了不少。手机百度地图在几年前已率先支持该能力。

2. Shortcuts成为基础能力

iOS应用Shortcuts允许用户设置多个指令，然后命名为一条语音指令，用户只要对Siri说出这条语音指令就能把相关指令按顺序执行。小鹏汽车在2020年已经支持了Shortcuts功能。

3. VUI和GUI融合将成为系统底层设计

小鹏汽车在2020年发布的全场景语音交互正是将语音交互和GUI进行深度打通，它能有效实现语音交互直接控制GUI上的控件和组件，极大提升了驾驶员对于系统控制的效率。

四、播报

1. 让播报音色更拟人

当前大部分语音助手在播报时语气没有任何变化，而且音色机械感强，实现语音助手的拟人化播报将有效提升语音助手的情感表达。小鹏汽车在2021年7月份新推出的小P版本声称具备愉快、温和、亲热等14种强烈情绪的变换能力，而且在微软MOS（Mean Opinion Score）语音质量评测中获得了4.49的高分（满分为5分，分数越高越接近真实人声）。

音色自定义也是一个可见得着的趋势，2019年百度地图推出了地图语音定制产品，用户只需在百度地图App上录制20句话，20分钟左右即可生成个人完整语音包，21年亿咖通携手百度Apollo定制新一代智能座舱系统也包含了相关功能。

2. TTS个性化播报

除了音色可以提升情感表达，根据场景定制TTS文本也能有效提升语音助手的情感表达。

举个例子，语音助手和所有用户对话过程中都会用“你”字，“不好意思我听不懂你能再说一遍吗”、“请问有什么可以帮你的呢”……如果将“你”字改为名字和昵称，这时表达和用户的感受会发生新的变化，因为用户知道语音助手知道自己是谁，这有可能会加强用户对语音助手的信任感；第二说名字和昵称更能体现亲切感，就跟朋友聊天的时候不会天天用“你”字。

再举个例子，当用户上车时语音助手会根据不同的上车顺序和用户身份一一打招呼，例如“Hi，奶奶（年老的妇女，坐在后排左侧）、小明（驾驶员）、小红（小孩，坐在后排右侧）”，这比语音助手只跟驾驶员打招呼亲切得多，而且能体现出这个语音助手是智能且懂礼貌的。

以上例子看起来是在TTS文案上进行优化，背后其实采用了一系列空间信息、身份理解以及性别、年龄预测等技术。以上技术都已成熟，虽然这看起来使用了大量技术而且最后呈现的结果仅仅是文案的变化，但笔者认为它们对于语音助手的情感化和个性化有质的提升。

最后，除了语音交互，基于声音的创新也在不断发展当中。由于驾驶员在驾驶过程很难看到背后的事物，但听觉能接收并感知来自360°的信息，因此在不同位置播放音效能有效对驾驶员进行预警和提示，提升驾驶员的空间感知能力。

除了空间上的预警提醒，娱乐和体验也是智能座舱重点关注对象，7.1声道以及7.1.4声道音响能为乘客带来不一样的感官体验，因为声音可以在空间中流动起来，这时电动汽车可以在7.1声道的基础上重新设计引擎声浪系统，也可以配合主动式氛围灯做更多空间上的渲染。

专栏作家

薛志荣，微信公众号：薛志荣，人人都是产品经理专栏作家。畅销书《AI改变设计-人工智能时代的设计师生存手册》作者，全栈开发者，专注于交互设计和人工智能设计。

本文原创发布于人人都是产品经理。未经许可，禁止转载

题图来自 Unsplash，基于CC0协议。

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

抖店动销，抖店体验分提升。抖店任何业务可添加微信：ad07668

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 sumchina520@foxmail.com 举报，一经查实，本站将立刻删除。
如若转载，请注明出处：https://www.zg8899.cn/23821.html

交互助手唤醒用户语音

投稿用户

美国想通过法案建立加密世界的新SWIFT！swift语言教程？

上一篇 2022年9月22日 am5:27

英伟达40系显卡发布，首发4090、4080！rtx3080什么时候上市的？

下一篇 2022年9月22日 am5:39

带孩子摆摊经历（在家带娃摆地摊卖什么）

全职带娃已经2年了，以前没有小孩前，自己上班，每个月有固定的收入，生活消费没什么太大压力。小孩出生后，我就成了全职宝妈，整天在家带小孩，时间长了，自己也觉得很无聊，于是开启了做手工活的征程，刚开始是做给女儿的，各种挂件

网络热点 2022年5月1日
320 0
网络热点

借钱应急500元借不出来（借钱应急500元公众号）

我是诺晗家的帅爸比，坚持原创，点击右上角【关注】，和你一起分享生活，细品生活点滴。文章原创作者→诺晗家的帅爸比本文用自己在职场十几年经历过或者看过的那些教训，为你一一盘点职场上那些不容易被发现的“坑”，文章有点长，希望对初入职场的小白或者同为职场老鸟的你，有

2022年5月9日
305 0
杭州贷款中介好做吗（贷款中介好做吗工作怎么样）

本人广东人，学历本科，15年毕业，广佛闯荡7年不到，爱喝茶，喜欢旅游；做过车险电销业务断断续续前后5年，做过营养师，带过团队，开过工作室(电销），当过讲师。上一份工是和朋友一起做生意，失败。在宿舍反思和休息了大半个月时间，重新出发，准备在2022年4月6

网络热点 2022年5月10日
219 0
网络热点

假如你是一名村干部,你手上有资金,你们村有想搞养殖业（村干部如何带领致富）

#大家好，我是一名农民工，47岁，家里有五亩地，想投资六万元在家搞养殖！做什么一年能赚三万#有人说如今在疫情的影响之下，作为一个农民不想外出打工了，因为今年也是50岁，那么家里面又有土地，想投资自己仅存的6万块钱

2022年5月4日
180 0
网络热点

1条视频可以赚取3份收益，是真的吗？，西瓜视频收益如何计算

1条视频真的可以赚取3份收益吗？很是怀疑。偶然的机会与头条相遇，又在某个时间段，发现西瓜视频可以赚钱，通过各种尝试，却发现1条视频可以赚取3份收益。这条消息对于全职妈妈的我来说，感觉天上掉馅饼了一样，很开心。到底是不是1条视频真的可以赚取3份收益呢？带着这个疑

2023年1月5日
197 0
网络热点

纯私人放款5000佛山（纯私人放款5000联系昆明真实的）

“要不是民警在我们企业进行了反诈骗宣传，及时提醒劝阻，我的血汗钱就没了，真是太感谢你们了。”被成功劝阻后的张某想起自己的血汗钱差点被骗走，仍然心有余悸。近日，万安县公安局工业园派出所快速反应，成功阻止一起正在实施的网络虚假贷款类型的电信诈骗，避免了群众财产损失5000元，获得了群众的好评和称赞。4月12日下午，工业园派出所接到一工厂员工报警：我遇到电信诈骗了，骗子正不断打电话威胁我转钱。接警后民警

2022年4月25日
342 0
网络热点

描写北京市山河历史人文风光爱国主义的经典古诗词

燕京河山篇（北京）天生其邦文/李者也六合之域八之荒，中有热土是吾邦。黄土黄裔生黄河，大国大族起大江。九州九氏铸九鼎，华山华表写华章。天行健，地势坤，壮志未息国不殇。五千年，自主自立自信自强自之当。任尔惊涛骇之浪，砥柱中流其之央。【注】北京

2022年7月15日
218 0
网络热点

给家人做早餐，别怕麻烦，推荐5款懒人早餐，快速出锅，都喜欢吃！出餐最快的十大外卖菜品图片大全？

#秋日生活打卡季#俗话说得好，一年之计在于春，一日之计在于晨。，每天上午是最有精神头的时间，学习、工作的效率也最高，所以早晨的早餐是一定要吃好的，也要吃好吃饱。所以给家人做早餐，别怕麻烦，推荐5款懒人早餐，快速出锅，都喜欢吃。葱花发

2022年10月14日
176 0
网络热点

如何通过知乎赚钱！加油圈钱是什么意思_

知乎2020年，知乎视频发布“创作者招募计划”，提供50亿曝光流量扶持。在平台创作者方面，知乎已经有100位创作者，月收入超过10万元，有1000位创作者，月收入超过1万元。知乎作为一个图文社区，2年前开始发力视频，目前视频激励计划依然继续，可以看出知乎在视频赛道

2022年9月23日
213 0
网络热点

2月24日的星座是什么星座（2月24日生的人是什么星座）

2011年诺贝尔物理学奖被分成两半，一半授予SaulPerlmutter，另一半共同授予BrianP.Schmidt和AdamG.Riess，以“通过观测遥远的超新星发现宇宙加速膨胀”。“有人说世界将在火中终结，有人说在冰中……”*宇宙的最终命运是什么？如果

2022年6月2日
309 0

一起聊聊，智能座舱语音交互的发展现状和趋势！蜻蜓语音陪玩用户已经被锁定？

一、唤醒

1. 声源定位从双音区发展到四音区

2. 语音交互支持One-Shot

3. 语音交互支持唤醒词+离线意图识别

4. 语音交互支持免唤醒指令

5. 语音交互支持多模唤醒

二、聆听

1. 全双工语音交互成为主流

2. ASR支持自动校正

3. 声纹识别在未来有一定作用

三、理解

1. 支持一句话包含多个任务的理解

2. Shortcuts成为基础能力

3. VUI和GUI融合将成为系统底层设计

四、播报

1. 让播报音色更拟人

2. TTS个性化播报

相关推荐