智能家居设备的技术应用,人机交互方面,语音识别是非常重要的技术。当前,出于市场需求,语音识别在智能家居中作为一个技术补充,正在提升用户体验发挥着重要的作用。以智能音箱为例,为了更好的进行定位、捕捉声音、以及降低无关噪音的影响,开发者们会采用多麦克风的形式,不过,一旦处于人声鼎沸的环境之中,智能音响的语音识别系统极有可能“罢工”,因为它很难从众多声音中准确的识别出下命令的用户。在智能家居之中,大多家庭往往只买一个智能音箱。
打个比方,当语音识别技术发展较为成熟之时,若一位家庭成员呼唤音箱打开自己房间的灯,语音控制系统就能通过声纹识别技术确认说话人的身份,从而准确的打开说话人房间的灯。由此,在体验上,不管是从众多人声中准确辨认用户,还是确认说话人的身份,声纹识别都能让用户体验进一步的提升。
搭载声纹识别,提高家庭安全指数。由于不能确认说话人的身份,只要条件允许,当非用户下达命令之时,语音控制系统极有可能会执行。举个例子,有人非法入侵住宅,若语音控制系统不限制说话人的身份,纵然有着智能监控系统,闯入者完全可以直接下命令关闭监控系统,如此一来,闯入者就成功的得到了住宅的临时控制权。当搭载声纹识别技术,基于声纹的独特性,再不能识别出闯入者身份的前提下,语音控制系统就能接着进行报警等一系列安防措施。
声纹识别技术存在的“困扰”
在智能家居领域,语言识别已经充分的体现了自己的价值,紧接着,随着语音识别热潮的过去,声纹识别又成为了新的热门,被称为智能家居未来发展的关键,或是语音交互的下一个风口。且不论它在智能家居领域的未来发展如何,就目前而言,其想在智能家居领域真正落地,还需解决一些困扰。
首先是声纹的采集和特征的建立。不管是人工识别,还是依靠深度学习算法进行自动化识别,声纹库的建立都是进行一切行动的前提。当前,公安的声纹鉴别库应该是最全的,不过,企业要想研究声纹识别,从公安处入手显然行不通,因而,声纹库的建立就依赖于企业自行收集,这是一件相当艰难的任务。不同于人类的双耳,机器的识别都是在数以百万、千万计的数据训练中不断改善的,可以说,如果没有足够的数据支持,就没有如今的语音识别等人工智能技术的突破。对于企业而言,想要训练声纹识别算法,他们所需的不仅仅是语音数据,还需要特征多样化的语音数据,像方言、口音等等,如此才能全方面的对声纹识别算法进行训练。
除了声纹的采集,声纹特征的建立也是当前声纹识别进展的一个难题。理论上来讲,声纹就像指纹一样,很少会有两个人具有相同的声纹特征。虽说如此,但正如双胞胎一般,有些声纹极其相似,可能只存在一丢丢的差异,这时,找出特征就成了一件相当具有难度的事。当然,你或许会说这部分可以由计算机完成,的确,依计算机的运算速度,该工作的完成还是相当不费吹灰之力的。不过,在特征建立工作中,这里又再次回到了上一个话题,没有充足的声纹库,又如何建立足够的声纹特征?
其次,除了声纹的采集和特征的建立,如何准确识别说话人也是当前一个急需解决的问题。不仅仅是静态检测,现在的声纹识别更多的是被要求进行实时动态监测,因而,说话环境、说话人身体状况、情绪变化等都能对声纹识别的结果造成影响。以说话人本身的状况为例,用iPhone7上Siri的声纹识别做实验,在提前保存声纹数据的基础上,镁客君的小伙伴分别以正常、加粗、尖细的声音唤醒Siri,结果证明,只有正常的语音状态下,Siri才能被唤醒,其他则是毫无反应。对照该结果,我们可以总结,只要说话人的声音出现状况,比如沙哑、情绪化等等,声纹识别系统就不能将之与库中的声纹对上号,从而不能确认说话人的身份。