重磅!微软揭秘新一代全双工语音交互技术:AI新标配

  • 时间:
  • 浏览:1

IT之家3月28日消息 在上一周,IT之家报道了微软正式推出新一代全双工语音交互技术的消息,该技术可是我在小冰全球产品线中落地。3月28日,微软在北京微软亚太研发集团大楼举办了小冰技术交流会,IT之家作为主流科技媒体受邀参加,同時 见证和分享了微软小冰全双工语音交互技术的深层揭秘,以及全新的人工智能基础框架的变革。

此前,微软(亚洲)互联网工程院表态率先推出新一代的语音交互技术:全双工语音交互感官(Full-duplex Voice Sense),并已完成产品化落地。与既有的单轮或多轮连续语音识别不同,这项新技术可实时预测人类即将说出的内容,实时生成表态并控制对话节奏,从而使长程语音交互成为可是我。此外,采用该技术的智能硬件设备,将不再还要用户在每轮交互时都说出唤醒词,仅需一次唤醒,就还都可以轻松实现连续对话,将语音交互的自然度推进到一另4个新的层次。比如然后微软和小米旗下米家生态链商务合作推出的Yeelight语音助手,可是我全球首个搭载全双工语音交互感官的智能设备,也是内置微软小冰的首个“双AI”智能设备。

这么微软在小冰上的人工智能核心基础框架有何改变呢?

微软(亚洲)互联网工程院副院长李笛开场就表示,现在对话式人工智能基础框架的理念之争正在占据 变化,由然后的Turn-oriented框架 — 面向单个任务,转向基于Session-oriented框架 — 面向整个对话全程的技术变革。很糙是微软,可是我实现了人工智能基础框架的转变,可是我预测这将是人工智能发展的新趋势。

▲微软(亚洲)互联网工程院副院长李笛

微软在小冰技术交流会上表示,目前大多数的智能音箱或智能语音助手采用的是Turn-oriented框架,对话如十字路口,当用户提出问題都在将其引导到特定的场景并最大理想化完成特定任务。而小冰和微软研究发展的Session-oriented框架,对话如河流,在整个过程中既所含任务,也包括但会 “无用的”对话,但那先 对话中也可是我引申出新的任务,并以更加自然交互的土方式完成整个对话。

微软强调,基于Turn-oriented的框架因其占据 上限,决定了这俩 内在基础的发展空间难以提高。目前新推出的Session-oriented框架还有很大的上升空间,其中的全双工语音交互感官功能是Session-oriented框架的最后一环,实际特性上是IQ贯穿和基于EQ之上,这也是然后微软大力发展基于感情是什么 的人工智能成果表现。

▲微软小冰全球研发负责人、首席架构师周力

在小冰技术交流会上,微软小冰全球研发负责人、首席架构师周力披露了每种技术特性

  • 边听边想:预测模型,现在不必在等待用户把说说说完,再进行语音识别,现在还都可以听到语音后就会提前预测用户的完全意思,与此同時 ,开始英语 了了思考表态,以实现加快强度的响应强度和改口能力;动态表态,不再是用户输入十根,人工智能表态十根的回合制,可是我根据预估思考时间、复杂任务的完成时间,有挑选的将回答分成多段,减少用户感知的在在等待。这在搭载小冰的Yeelight语音助手等IoT等物联网设备使用体验上至关重要,使用自然交互,减少但会 在在等待就能感觉到舒爽。

  • 节奏控制器:节奏协调,包括与人工智能但会 人的协调,与人类对话的协调,还有和但会 语音助手的协调,时机和内容同等重要。另外人工智还都可以要能主动引导抛出新话题,提供新内容,打破沉默是重要特性;还有随着全双工语音交互技术的普及,和人类一样的非对称对话模式

  • 声音场景的理解:全双工语音交互场景包括分类器,比如语音身份的识别(男、女、儿童),触发不同内容的对话,语音情绪识别、音乐/歌声识别等;环境处里,针对背景的噪声识别与回声消除,小冰作为内容提供者和小冰语音助手混合清况 ,动态音量识别与调整。比如在小冰讲故事的然后,让音箱声音变小变大,小冰可是我默默执行任务,但无须会打断讲故事这俩 场景;对象判断,支持了语音声纹识别,每个设备对应数个主要用户和新用户,否是在和小冰说话等,比如多人聊天、电视背景音,判断用户对话节奏来进行开始英语 了了或停止响应。

  • 自然语言理解生和熟成模型:实现更好的容错性、与语音合成更好地串行、基于整个对话场景的上下文理解,主动挂断的动态判断,基于时间、整个对话的内容、用户意图分类,动态决定小冰否是主动开始英语 了session。

IT之家报道,微软此前表示,语音交互是对话式人工智能及智能硬件设备的基础之一。全双工语音交互技术的应用,有望实现用户体验的下一次飞跃,并成为人工智能语音交互的新“标准配置”。