分类目录归档:NLP

单调注意力


  1. 定义
  2. Monotonic attention(单调注意力)是注意力机制的一种变体。在一般的注意力机制中,注意力的分布可以灵活地在输入序列的各个位置间跳跃。而单调注意力强制注意力的分配在序列上呈现单调递增或单调递减的特性,也就是说注意力会按照输入序列的顺序依次分配,不会出现回溯或跳跃的情况。

  3. 应用场景

  4. 语音处理
    • 语音识别:在语音识别任务中,语音信号是一个随时间连续的序列。单调注意力可以确保在将语音信号转换为文字的过程中,对语音的关注是按照时间顺序进行的。例如,当识别一段包含多个单词的语音时,单调注意力会从语音的起始部分开始,按照时间推进依次关注每个可能对应单词的语音片段,不会出现...

Read more

引导注意力


  1. 定义
  2. Guided attention(引导注意力)是一种在深度学习模型,特别是序列到序列(seq - to - seq)模型和注意力机制相关应用中的技术。它用于对注意力机制的分布进行约束或者引导,使得模型的注意力能够按照预期的模式或者规则进行聚焦,从而更有效地利用信息并提高模型性能。

  3. 在语音处理中的应用

  4. 语音合成
    • 在语音合成任务中,引导注意力机制可以确保模型在生成语音的过程中,按照正确的时间顺序关注文本信息。例如,当将文本“今天天气很好”转换为语音时,引导注意力可以让模型的注意力从“今天”开始,依次关注每个单词对应的语音特征生成部分,避免注意力在单词之间跳跃混乱,使生成的语音...

Read more

词汇表


  1. 定义
  2. 在自然语言处理、信息检索等领域,vocabulary(词汇表)是指在一个特定的文本集合(如一个文档、一个语料库或者一个语言模型的训练集)中出现的所有单词(或其他语言单位,如词素、字符等)的集合。它是对文本中语言单位的一种整理和统计后的结果。
  3. 构建过程
  4. 收集文本:首先需要有一个文本来源,比如一本小说、一个新闻网站的全部新闻文章或者一个大型的语言模型训练数据集。例如,对于训练一个用于新闻文章分类的语言模型,收集大量的新闻稿件作为文本来源。
  5. 分词操作:如果处理的是自然语言文本,通常需要进行分词。对于英语等语言,可以使用空格等分隔符来划分单词;对于汉语等语言,需要使用专门的分词工具。例如...

Read more

声学特征


  1. 定义
  2. 声学特征(Acoustic Feature)是从声音信号中提取出来的、用于表征声音某些属性的特征。这些特征可以帮助我们理解、分类和处理声音,在语音处理、音频内容分析等领域有广泛应用。例如,在语音识别中,声学特征可以帮助计算机区分不同的语音音素,进而识别出完整的单词和句子。

  3. 常见的声学特征类型

  4. 梅尔频率倒谱系数(Mel - Frequency Cepstral Coefficients,MFCC)
    • 原理
    • MFCC是一种在语音处理中广泛使用的声学特征。它基于人耳对声音频率的感知特性,将线性频率转换为梅尔频率(Mel Scale)。梅尔频率是一种非线性频率刻度,更符合人耳对声...

Read more