- 定义
- Wasserstein距离,也被称为“推土机距离”(Earth - Mover's Distance,EMD),用于衡量两个概率分布之间的距离。从直观上来说,它可以被理解为将一个概率分布转换为另一个概率分布所需要的最小“工作量”。对于两个概率分布(P)和(Q),假设存在一个联合分布(\gamma(x,y)),其边缘分布分别是(P)和(Q),那么(Wasserstein)距离(以(p = 1)为例)定义为(W_1(P,Q)=\inf_{\gamma \in \Pi(P,Q)}\sum_{x,y}\vert x - y\vert\gamma(x,y)),其中(\Pi(P,Q))是所有边缘分布为(P)和(Q)的联合分布的集合,(\inf)表示取下确界。
- 在深度学习中的优势
- 解决梯度消失问题
- 在生成对抗网络(GAN)中,与传统的基于JS散度(Jensen - Shannon divergence)的方法相比,Wasserstein距离可以有效避免梯度消失问题。例如,在训练早期,生成器生成的分布与真实分布可能相差很远,JS散度可能会导致判别器饱和,使得梯度消失。而Wasserstein距离的梯度在这种情况下仍然能够提供有效的信息,使得生成器能够持续学习和改进。以生成图像为例,在训练初期,即使生成的图像与真实图像差异巨大,Wasserstein GAN仍然能够通过稳定的梯度来调整生成器的参数,使其逐渐生成更逼真的图像。
- 更好地处理分布的几何结构
- Wasserstein距离考虑了分布的整体几何结构,而不仅仅是概率密度函数的重叠部分。对于具有复杂几何形状的概率分布,如多模态分布(包含多个峰值的分布),Wasserstein距离能够更准确地衡量它们之间的差异。例如,在处理包含多种风格图像的数据集时,如不同风格的绘画作品(写实、抽象等),如果要衡量生成器生成的绘画风格分布与真实绘画风格分布之间的距离,Wasserstein距离可以更好地捕捉到不同风格之间的差异,而不像一些基于概率密度重叠的度量方法那样容易忽略分布的几何形状。
- 应用场景
- 生成对抗网络(GAN)
- Wasserstein距离在GAN的改进版本(如Wasserstein GAN)中起到关键作用。它使得GAN的训练更加稳定,能够生成质量更高的样本。例如,在图像生成任务中,使用Wasserstein距离作为损失函数的一部分,可以生成更清晰、更符合真实数据分布的图像。并且,Wasserstein GAN还可以通过调节距离度量的参数来控制生成图像的多样性和质量之间的平衡。
- 领域适应(Domain Adaptation)
- 在跨领域数据处理中,例如将源领域的数据分布转换到目标领域的数据分布。Wasserstein距离可以用来衡量两个领域(如不同传感器采集的数据、不同语言文本等)之间的分布差异,从而帮助设计更有效的领域适应算法。通过最小化两个领域之间的Wasserstein距离,可以将源领域的知识更好地迁移到目标领域,提高模型在目标领域的性能。
推土机距离
评论
21 views