声学特征


  1. 定义
  2. 声学特征(Acoustic Feature)是从声音信号中提取出来的、用于表征声音某些属性的特征。这些特征可以帮助我们理解、分类和处理声音,在语音处理、音频内容分析等领域有广泛应用。例如,在语音识别中,声学特征可以帮助计算机区分不同的语音音素,进而识别出完整的单词和句子。

  3. 常见的声学特征类型

  4. 梅尔频率倒谱系数(Mel - Frequency Cepstral Coefficients,MFCC)
    • 原理
    • MFCC是一种在语音处理中广泛使用的声学特征。它基于人耳对声音频率的感知特性,将线性频率转换为梅尔频率(Mel Scale)。梅尔频率是一种非线性频率刻度,更符合人耳对声音频率的感知。首先对语音信号进行预加重、分帧、加窗等操作,然后进行快速傅里叶变换(FFT)得到频谱,再将频谱转换到梅尔频率刻度,最后通过离散余弦变换(DCT)得到梅尔频率倒谱系数。
    • 应用场景
    • 在语音识别系统中,MFCC是最常用的特征之一。例如,当用户使用语音助手时,语音信号首先被提取MFCC特征,这些特征被输入到语音识别模型中,用于识别用户说出的单词和句子。它也用于说话人识别,通过比较不同说话人的MFCC特征来区分他们。
  5. 线性预测系数(Linear Predictive Coefficients,LPC)
    • 原理
    • LPC是基于语音产生模型的一种声学特征。语音信号可以看作是由一个激励源(如声带振动)通过一个声道滤波器产生的。LPC假设语音信号当前样本可以通过过去若干样本的线性组合来预测,通过最小化预测误差来确定线性预测系数。这些系数可以反映声道的特性,如共振峰频率等。
    • 应用场景
    • 在语音编码中,LPC可以用于对语音信号进行压缩。因为它能够有效地表示声道的特性,所以可以用较少的系数来描述语音信号,从而实现数据压缩。同时,在语音合成中,LPC也用于构建声道模型,生成自然的语音。
  6. 基音频率(Pitch)
    • 原理
    • 基音频率是指声音中周期性重复部分的频率,主要用于描述语音的音调。在语音信号中,它与声带的振动频率有关。通过分析语音信号的周期特性,可以提取基音频率。例如,可以使用自相关函数或谐波峰值检测等方法来提取基音频率。
    • 应用场景
    • 在语音合成中,基音频率是生成自然语音语调的关键因素之一。如果合成语音的基音频率不符合人类语音的规律,听起来就会很不自然。在唱歌合成领域,基音频率更是至关重要,因为它决定了歌曲的旋律。在语音情感识别中,基音频率的变化也可以作为情感状态的一个线索,例如,当人处于激动状态时,基音频率可能会升高。
  7. 共振峰(Formant)
    • 原理
    • 共振峰是声道的共振频率,它反映了声道的形状和大小。在语音信号中,共振峰表现为频谱中的峰值。可以通过频谱分析方法,如线性预测谱分析等方法来提取共振峰频率。通常,前几个共振峰(如第一、第二、第三共振峰)对语音的音色和音质有重要影响。
    • 应用场景
    • 在语音识别中,共振峰特征可以帮助区分不同的元音。因为不同元音的声道形状不同,导致共振峰频率不同。在语音病理学研究中,共振峰特征也可以用于诊断语音障碍。例如,某些语音障碍可能会导致共振峰频率或带宽的异常变化。