语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。语音识别技术原理借助“支持向量机(SVM)”和“核学习”理论,建立了一种全新而高效的模式识别技术。
这种新颖的模式识别技术具有以下特性和优点:
1.核心算法具有坚实的理论基础和几何上的可解释性;
2.算法用核函数替换内积从而使线性算法变成非线性,这样通过把数据映射到高维特征空间来增加传统的线性学习器的计算能力;
3.算法最终将转化成为一个二次型寻优问题,从理论上说,得到的将是全局最优点,解决了传统方法中出现的局部极值问题;
4.适合小样本训练;
5.建立在简单、简洁的计算基础之上,不仅速度快,也非常适合硬件实现。
特征提取:
语音特征的提取是在语音信号中提取出影响语音识别的重要信息,提取方法是否有效是声纹识别成败的关键。
本项目突破传统方法,尝试研究新型的语音特征提取技术,使其既符合人的听觉特性,而且在有信道噪声和频谱失真的情况下具有较好的稳健性,具体方法如下:
1.基于微分的特征,微分作用是反映语音信号特征的变化率,具有预见性,能预见特征变化的趋势,以微分特征作训练识别可以改善识别系统的动态性能。
对单帧倒谱特征进行微分变换,方法是:
2.离散余弦变换(DCT变换)的特征
将DCT特征样本和已存在的所有用户的DCT模板比对,即计算特征样本和各DCT模板之间的绝对值距离(各个对应特征数据之差的绝对值之和),筛选出距离最小的前N个用户,即DCT预选,它能很好的提高识别效率。
根据输入的语音,输出语音的幅度累加和特征、语音的过零率特征、语音的MFCC的2阶特征,由“语音的幅度累加和特征”和“语音的1阶、2阶特征”按照幅度权重、倒谱权重系数,进行相加或相减,得到4组特征数据(波形划分特征),依次把“波形划分特征”和“语音的过零率特征”输入到一个容器中,输入4组峰位划分信息,把这4组峰位划分信息进行合并,然后按照峰位的最小间距信息去除分布过密的峰位,最后得到一组准确的峰位信息。
根据输入的语音,输出对应的MFCC特征(1-12阶)。
4.大帧特征
根据峰位查找中得到的“峰位信息”和“MFCC特征”,输出每个峰位的对应大帧特征,每个大帧覆盖10个小帧的区域,在大帧的定位过程中使用了幅度累加和法,所谓的幅度累加和法就是:设当前位置为i,使用一个10个小帧大小的窗口从i-9到i滑动,求出这之间的窗口区域的最大幅度和,然后把这个窗口的起始位置作为大帧的起始位置,从大帧的起始位置开始的10个小帧特征,作为当前峰位的大帧特征,并且只使用其中的奇数小帧。
5.随机倒谱特征
语气、语速多变将导致发音特征发生变化,使识别正确率降低。如果在特征提取时动态地选取不同时间维度的特征块进行训练,将很好地改善因说话的随意性、语速的多变性等造成的识别不稳定性。
本项目采用随机倒谱特征的方法解决这个问题,该方法将单纯的倒谱特征转换为带有时间维的多维随机倒谱特征,在通过网络模型不断学习过程中,将语音特征逐渐归纳、聚类到稳定的激励模式,实现对原始的微观特征集合的归纳和抽象,从而提高识别的抗畸变性和鲁棒性。
6.基于人类听觉结构特征的提取方法
用伽玛听觉过滤器组(一组不规则的带通滤波器)模仿人听觉的频率分辨能力。另一种方法是基于小波的提取方法。小波理论是采取多分辨率分析的思想,非均匀地划分时频空间,建立听觉滤波器组,该方法为非平稳信号的分析提供了新的途径。
7.基于发音特征的提取方法
国际音标组织(InternationalPhoneticsAssociation,IPA)用发音位置和发音模式等发音特征(ArticulatoryFeature,AF)来对语言的发音分类。利用发音特征可以降低误识率、弥补语言间的变化。
8.多特征融合的提取方法
采用线性判决分析技术(LinearDiscriminantAnalysis,LDA)、主成份分析(PrincipleComponentAnalysis,PCA)、最小分类错误(MinimumClassificationError,MCE)等判决分析方法对高维语音特征进行相关性分析和优化分析,以达到多种特征的融合和特征降维等目的。