AI产品经理必备技能：语音识别技术

zuolun445

从语音识别技术的发展可以看出：语音识别技术最早依靠匹配，寻找单个音节、单个词和标准语音模板的最大相似度进行匹配。后来伴随着统计学被引入到语音识别中，将该技术逐步从模板匹配技术转向基于统计模型技术。

对于不同的语音识别过程，人们采用的识别方法和技术不同，但所用的原理大致相同，即将经过降噪处理后的语音送入特征提取模块，然后对语音信号特征处理后输出识别结果。在这个过程中，特征提取是构建语音系统的关键，对识别结果起到了重要作用。

实现语音识别，就需要语音参数来刻画语音信息。语音原本具有短时特性，所以描述语音的单位用帧（一般为10-40ms），在音频帧上提取的短时音频特征，叫音频帧特征。相对音频帧较长的时间间隔成为音频段，在音频段上提取的特征叫音频段特征。

原始语音信号传入预处理模块的目的：是为了压缩原始语音数据，提取出有代表性的特征来做后续的识别，主要分为三部分：预加重、分帧加窗、端点检测。