Yobe使用AI和麦克风来隔离人群中的声音

智能助手和支持语音的扬声器现在比以往更受欢迎。据Voicebot.ai称,约有4730万美国成年人可以使用智能扬声器,超过一半的智能手机用户(52%)表示他们在移动设备上使用语音助手。但普及并不一定转化为准确性。任何试图在聚会上试图获得Cortana或Alexa注意力的人都可以告诉你,当他们从人群中隔离语音时,他们并不完全是王牌。

总部位于马萨诸塞州波士顿的 Yobe声称它可以让助手们成为更好的听众。该创业公司成立于麻省理工学院(MIT),并从Clique Capital Partners和国家科学基金会SBIR拨款筹集了近200万美元的种子资金,今天推出了用于用户档案检索的语音识别系统(VISPR), “智能”,可以识别,跟踪和分离嘈杂环境中的声音。它声称人工智能(AI)允许其软件堆栈在“任何听觉环境”中准确地跟踪语音。

Yobe表示,通过VISRP,智能手表,助听器和智能家用电器等麦克风运动设备可以识别只有唤醒字的语音,并可以执行远场语音个性化。它还声称VISPR可以将语音识别错误降低多达85%。

“[我们的]技术正在解决当今市场中语音技术最持久的挑战,”Yobe首席执行官兼联合创始人Ken Sutton表示。“智能手机,扬声器和其他连接设备在提供卓越的语音用户界面方面受到限制。”

Sutton与麻省理工学院博士和人工智能辅助信号处理研究员S. Hamid Nawab博士一起创立了Yobe,他说公司将把重点放在许可方面。

VISPR对鸡尾酒会问题采取多管齐下的方法。其AI模型通过声音和环境噪声的相互作用积极推理,而其信号处理流水线适应“场景特征”的变化 - 即房间的声学,扬声器的数量和整体噪声水平 - 在飞行中。同一管道采用复杂的时间,频谱和统计技术来解析输入的音频信号,并推广不同的麦克风阵列大小和配置。(并非所有支持语音的设备都是平等的 - 例如,与Google Home Mini 2相比,亚马逊的Echo Dot有7个麦克风。)

用简单的英语,VISRP记录声音并将其放大,使用AI对其进行去噪并隔离单个声音,并聆听每个人独有的告密生物识别标识符。它类似于谷歌的语音匹配 和亚马逊的Alexa语音配置文件 ,它可以检索用户配置文件和与扬声器相关的权限,但Yobe声称其解决方案更加强大。

谷歌的科学家和瑞士的Idiap研究所详细介绍了一种AI语音识别系统,该系统能够“ 显着 ”降低多音扬声器信号的字错误率(WER)。在同样的研究中,麻省理工学院的计算机科学和人工智能实验室在今年早些时候演示了技术 --PixelPlayer-- 它学会了从YouTube视频中隔离单个乐器的声音。2015年,萨里大学的研究人员 设计了一种人工智能模型,可以在输入歌曲时输出声谱。

THE END
分享
二维码

< <上一篇
下一篇>>