分类目录归档:人工智能

权重衰退-


一、权重衰退的定义

权重衰退(Weight Decay)是一种在机器学习,特别是神经网络训练过程中经常使用的正则化方法。其主要目的是防止模型过拟合。

在神经网络中,模型的参数(也就是权重)会在训练过程中根据损失函数的梯度不断更新。而权重衰退会在每次更新权重时,给权重一个额外的衰减力,让权重的值不会变得过大。简单来说,它在损失函数中添加了一个惩罚项,这个惩罚项与权重的大小有关。

从数学角度看,假设原始的损失函数是 $L(\theta)$,其中 $\theta$ 代表模型的所有参数(权重)。加入权重衰退后的损失函数可以写成:$L(\theta)+\frac{\lambda}{2}\sum_{...

Read more

模型剪枝-


  1. 定义与概念
  2. 模型剪枝(Model Pruning)是一种用于减少机器学习模型复杂度的技术。它的核心思想是去除模型中对最终性能贡献较小或者冗余的部分,如神经网络中的神经元、连接或者决策树中的某些分支等,同时尽量保持模型的性能不变。就像是修剪树木一样,把不必要的枝叶剪掉,让树木(模型)更加精简高效。

  3. 目的和重要性

  4. 减少计算资源消耗:随着模型复杂度的增加,其在存储和计算方面的需求也会显著增加。例如,大型的深度神经网络可能需要大量的内存来存储模型参数,并且在推理(预测)阶段需要很长的计算时间。通过剪枝,可以减少模型的参数数量,从而降低存储需求和计算时间。对于在资源受限的设备(如移动设备...

Read more

模型容量-


  1. 定义与概念
  2. 模型容量(Model Capacity)是指机器学习模型能够学习到的函数的复杂程度或者多样性。它可以被看作是模型拟合各种数据模式的潜力。简单来说,模型容量决定了模型可以多么复杂地去拟合数据。例如,一个具有高容量的神经网络可能有许多层和神经元,能够学习到非常复杂的数据关系;而一个简单的线性回归模型容量较低,只能学习到线性关系。
  3. 与模型复杂度的关系
  4. 模型复杂度(Model Complexity)通常是对模型结构复杂程度的直观描述,而模型容量更侧重于模型能够学习到的函数空间的大小。一般情况下,模型复杂度越高,模型容量越大。例如,在决策树模型中,树的深度越深、叶子节点越多,模型就越...

Read more

折交叉验证-


  1. 定义与概念
  2. k - 折交叉验证(k - Fold Cross - Validation)是一种用于评估机器学习模型性能的统计方法。其基本思想是将原始数据集划分为(k)个大小相似的互斥子集(也称为“折”),然后进行(k)轮训练和验证。在每一轮中,使用(k - 1)个子集作为训练数据来训练模型,剩下的一个子集作为验证数据来评估模型的性能。例如,当(k = 5)时,将数据集等分为5份,每次使用其中4份进行训练,1份进行验证,这样一共会进行5次不同的训练 - 验证组合。
  3. 步骤与过程
  4. 数据划分:假设我们有一个包含(n)个样本的数据集(D),首先将其随机打乱(这一步很重要,以确保每个子集都有相似的...

Read more

训练误差


  1. 定义与概念
  2. 训练误差是指机器学习模型在训练数据集上进行预测时产生的误差。它是衡量模型对训练数据拟合程度的一个指标。例如,在一个简单的线性回归模型中,训练误差可以通过计算预测值与训练数据中实际标签值之间的差异(如均方误差)来确定。
  3. 训练误差的计算通常基于某种损失函数(Loss Function)。损失函数用于量化模型预测结果与真实结果之间的差异程度。常见的损失函数包括均方误差(MSE)用于回归问题,交叉熵损失(Cross - Entropy Loss)用于分类问题等。以交叉熵损失为例,在一个二分类任务中,如果模型预测样本属于某一类的概率为(p),而实际标签为(y)((y = 0)或(y ...

Read more

泛化误差-


定义与概念

  1. 总体概念
  2. 泛化误差(Generalization Error)是指机器学习模型在新的、未见过的数据上的预测误差。它衡量了模型从训练数据中学到的知识和模式能否推广到整个数据分布(包括训练数据和未见过的数据)。例如,一个在猫狗图像分类训练集中训练好的模型,当面对新的猫狗图像时,其预测错误的比例就是泛化误差。
  3. 与训练误差的关系
  4. 训练误差(Training Error)是模型在训练数据上的误差。通常情况下,随着训练的进行,模型会逐渐学习训练数据中的模式,训练误差会逐渐降低。然而,泛化误差并不总是随着训练误差的降低而降低。如果模型过于复杂,它可能会过度拟合训练数据,导致训练误差非常低...

Read more

MFCC-


  1. 定义与概念

    • MFCC(Mel - Frequency Cepstral Coefficients)即梅尔频率倒谱系数,是一种在语音信号处理领域广泛使用的特征。39 - dim MFCC表示39维的梅尔频率倒谱系数。它是一种能够有效表征语音信号的声学特征,通过对语音信号进行一系列复杂的变换和提取操作得到。这些系数可以用于描述语音的音色、音高、共振峰等信息,对于语音识别、说话人识别等任务具有重要意义。
  2. 提取过程

    • 预加重(Pre - emphasis):由于语音信号的高频部分能量较低,为了提升高频部分的能量,通常会先对语音信号进行预加重处理。一般通过一个一阶高通滤波器来实现,公式...

Read more

词嵌入


  1. 定义与概念

    • 词嵌入(Word Embedding)是自然语言处理(NLP)中的一种技术,它将单词或词汇表中的元素映射到一个低维实数向量空间。在这个向量空间中,每个单词都由一个固定维度的向量表示,这些向量可以捕捉单词的语义和语法信息。例如,在一个300维的词嵌入空间中,“国王”这个单词可能会被表示为一个300维的向量,向量中的每个元素都是一个实数,这个向量能够体现“国王”与其他单词在语义和语法上的关系。
  2. 工作原理

    • 基于统计的方法
      • 共现矩阵(Co - occurrence Matrix):早期的词嵌入方法之一是基于单词的共现统计。构建一个共现矩阵,其中行和列分别代表词汇表中的...

Read more

独热编码


  1. 定义与概念
  2. 独热编码(One - Hot Encoding),也称为一位有效编码,是一种数据编码方式。它主要用于将分类变量转换为机器学习算法能够理解的数值形式。对于一个具有(n)个不同类别(或状态)的分类变量,独热编码会创建一个长度为(n)的向量来表示该变量的每个类别。在这个向量中,只有一个元素为(1),其余元素都为(0),其中为(1)的元素位置对应于该类别在所有类别中的索引。

  3. 工作原理与示例

  4. 以颜色分类为例:假设我们有一个颜色分类变量,包含“红”、“绿”、“蓝”三个类别。进行独热编码后,“红”可以表示为([1,0,0]),“绿”表示为([0,1,0]),“蓝”表示为([0,0...

Read more

自注意力机制


  1. 定义与概念
  2. 自注意力机制(Self - Attention Mechanism)是一种在深度学习中用于处理序列数据(如自然语言处理中的句子、时间序列数据等)的机制。它能够计算序列中每个元素与其他元素之间的关联程度,从而使得模型在处理数据时可以根据这种关联来动态地调整每个元素的权重,以更好地理解序列的整体结构和语义信息。

  3. 工作原理

  4. 以自然语言处理为例

    • 输入表示:首先,将句子中的每个单词通过词嵌入(Word Embedding)的方式转换为向量表示,这些向量组成一个输入矩阵。例如,对于句子“我爱自然语言处理”,将每个单词转换为一个固定维度(如512维)的向量,形成一个形状为(...

Read more