束搜索


  1. 定义
  2. Beam search(束搜索)是一种在序列生成任务(如自然语言生成、语音识别中的文本输出等)中广泛使用的搜索算法。它是一种启发式搜索策略,用于在生成序列的过程中,从众多可能的候选路径中找到较优的路径,而不是像贪心算法那样只选择当前看起来最优的单个选项。

  3. 工作原理

  4. 基本步骤
    • 假设我们正在进行文本生成任务。在开始时,模型会根据初始输入(例如,给定一个起始单词或者一个主题提示)生成多个(这个数量就是束宽,用k表示)最有可能的下一个单词的候选。例如,在一个基于语言模型的诗歌生成任务中,给定起始单词“明月”,模型可能会生成“高悬”“洒落”“照亮”等k个最有可能的下一个单词。
    • 对于每个候选单词,模型会继续计算从该单词出发,下一个可能的单词的概率分布。这样就会形成一个类似树状的搜索空间,每个分支代表一个可能的序列生成路径。
    • 在每一个生成步骤,都会保留k个累积概率最高的路径(束)。这个累积概率通常是通过将路径上每个单词的生成概率相乘得到的。例如,对于路径“明月 - 高悬 - 碧空”,其累积概率是第一个单词“明月”的生成概率乘以“高悬”的生成概率乘以“碧空”的生成概率。
  5. 终止条件

    • 束搜索会持续进行,直到达到预设的结束条件。结束条件可以是生成了固定长度的序列(例如,规定生成一首五言绝句,长度为20个字符),或者生成了结束标记(例如,在文本生成任务中,遇到了表示句子结束的特定符号)。
  6. 与贪心算法的比较

  7. 贪心算法
    • 贪心算法在序列生成的每一步只选择当前概率最高的单词作为下一个生成的单词。例如,在文本生成中,它会始终选择模型认为最有可能的单词,而不考虑这个选择对后续生成的影响。这种方法简单直接,但很容易陷入局部最优解。例如,在生成一个复杂的句子时,仅仅选择当前最可能的单词可能会导致句子在后面的部分变得不合理或者不符合语法规则。
  8. 束搜索优势

    • 束搜索通过考虑多个候选路径,能够在一定程度上避免陷入局部最优。它会权衡当前步骤的多个较优选择及其后续可能的发展,从而有可能找到全局最优或者更合理的序列生成结果。例如,在机器翻译任务中,束搜索可以帮助生成更符合目标语言语法和语义的翻译句子,因为它可以考虑多个可能的单词组合方式,而不仅仅是单个最可能的单词。
  9. 参数设置(束宽)的影响

  10. 小束宽(例如k = 1)
    • 此时束搜索就退化为贪心算法,因为它只考虑一个候选路径。这样可能会导致生成的序列质量较低,容易陷入局部最优,但计算成本相对较低,因为不需要维护多个候选路径的概率计算。
  11. 大束宽(例如k = 10)

    • 可以探索更多的候选路径,增加找到高质量序列的可能性。然而,随着束宽的增加,计算成本会急剧上升。因为需要计算和维护更多候选路径的概率,包括更多的乘法和比较操作,并且需要更多的内存来存储这些路径的信息。
  12. 应用场景

  13. 自然语言处理
    • 机器翻译:在将源语言句子翻译为目标语言句子时,束搜索可以帮助找到最符合目标语言语法和语义的翻译。例如,在将中文句子翻译为英文时,它可以通过考虑多个英文单词的组合方式,生成高质量的翻译结果。
    • 文本生成:如故事生成、诗歌生成等任务。在生成过程中,束搜索可以引导模型生成连贯、合理的文本。例如,在生成一个科幻故事时,通过束搜索可以使生成的情节和语句符合科幻故事的逻辑和风格。
  14. 语音处理
    • 语音识别中的文本输出:在将语音信号转换为文字时,束搜索可以帮助找到最有可能的文本序列。例如,对于一些容易混淆的语音片段,束搜索可以通过考虑多个可能的文字组合来提高识别的准确性。