Softmax-


  1. 定义与公式
  2. 在机器学习和深度学习领域,Softmax是一种函数,主要用于多分类问题。它将一个包含多个数值的向量转换为一个概率分布向量。
  3. 对于一个输入向量(z = [z_1, z_2, \cdots, z_n]),Softmax函数的计算公式为(\sigma(z)j=\frac{e^{z_j}}{\sum^{n}e^{z_k}}),其中(j = 1,2,\cdots,n)。这个公式的含义是,对于输入向量中的每个元素(z_j),先计算其指数值(e^{z_j}),然后将这个指数值除以所有元素指数值的总和(\sum_{k = 1}^{n}e^{z_k}),得到的结果(\sigma(z)_j)就是输出概率分布向量中的一个元素,其取值范围在([0,1])之间,并且所有元素的概率之和为(1)。

  4. 作用与应用场景

  5. 多分类任务中的概率输出:在神经网络用于多分类任务时,Softmax函数通常被应用在网络的最后一层。例如,在图像分类任务中,如果要区分猫、狗、兔子等10种动物,神经网络最后一层的输出可能是一个长度为10的向量(假设这个向量为(z)),通过Softmax函数处理后,就可以得到每个类别对应的概率。如输出向量经过Softmax后可能是([0.1, 0.3, 0.05, \cdots, 0.02]),这就表示模型预测这个图像是狗的概率是(0.3),是猫的概率是(0.1)等,这样就将神经网络的输出转换为了一个合理的概率分布,方便后续根据概率大小进行分类决策。
  6. 与损失函数配合使用:在训练神经网络进行多分类时,Softmax函数常和交叉熵损失函数(Cross - Entropy Loss)一起使用。交叉熵损失函数用于衡量模型预测的概率分布与真实标签的概率分布之间的差异。假设真实标签是一个独热编码(One - Hot Encoding)向量(例如,对于猫、狗、兔子三种动物分类,如果是狗则标签为([0,1,0])),模型预测概率分布为(p)(如([0.1, 0.8, 0.1])),交叉熵损失函数(L = -\sum_{i}y_i\ln(p_i))(这里(y)是真实标签,(p)是预测概率)可以计算出损失值,这个损失值用于反向传播来更新神经网络的参数,使得模型预测的概率分布更加接近真实标签的概率分布。

  7. 工作原理示例

  8. 假设在一个简单的三分类任务中,神经网络最后一层输出的向量(z = [2, 1, 0.5])。
  9. 首先计算(e^{z_1}=e^2 \approx 7.389),(e^{z_2}=e^1 \approx 2.718),(e^{z_3}=e^{0.5} \approx 1.649)。
  10. 然后计算总和(\sum_{k = 1}^{3}e^{z_k}=7.389 + 2.718+1.649 \approx 11.756)。
  11. 最后计算Softmax后的概率分布:(\sigma(z)1=\frac{e^{z_1}}{\sum^{3}e^{z_k}}=\frac{7.389}{11.756} \approx 0.628),(\sigma(z)2=\frac{e^{z_2}}{\sum^{3}e^{z_k}}=\frac{2.718}{11.756} \approx 0.231),(\sigma(z)3=\frac{e^{z_3}}{\sum^{3}e^{z_k}}=\frac{1.649}{11.756} \approx 0.140)。

  12. 与其他函数的对比

  13. 与Sigmoid函数对比:Sigmoid函数主要用于二分类问题,将一个数值转换为([0,1])之间的概率,而Softmax函数用于多分类,将一个向量转换为一个概率分布向量。例如,在逻辑回归(一种简单的二分类模型)中使用Sigmoid函数来预测一个样本属于某一类别的概率;而在多类别图像分类、文本分类等任务中使用Softmax函数。
  14. 在概率分布转换方面的独特性:Softmax函数具有归一化的特性,确保输出的所有概率之和为(1),这使得它非常适合用于表示分类任务中的概率分布。其他一些函数虽然也可以将数值转换为一定范围内的数,但没有这种自动归一化到概率分布的功能。例如,简单地将输出向量的每个元素除以向量元素的最大值,虽然可以将数值限制在一定范围内,但不能保证得到的结果是一个合理的概率分布。