Wasserstein距离(Wasserstein Distance)
Wasserstein距离,又被称为地球移动者距离(Earth Mover’s Distance, EMD),是一种衡量两个概率分布之间“距离”的方法。直观来说,它可以看作是从一个分布到另一个分布移动“质量”的最小工作量。
直观解释:
假设你有两个概率分布,分别表示两个不同的“山脊”(或者“堆积”)。Wasserstein距离试图计算,把一堆质量从一个山脊移动到另一个山脊所需要的最小“成本”。其中,每个“成本”都是根据移动质量的距离来计算的。可以把它看作是把一堆土从一个地方搬到另一个地方所需要的最少工作量。
公式:
Wasserstein距离通常定义为最小传输成本。对于两个分布 (P) 和 (Q),它的计算可以用下面的公式表示:
[
W(P, Q) = \inf_{\gamma \in \Gamma(P, Q)} \mathbb{E}_{(x,y) \sim \gamma} [| x - y |]
]
其中:
- ( \Gamma(P, Q) ) 是所有满足边际条件 (P) 和 (Q) 的联合分布(即对每个 (x) 和 (y) 在分布 (P) 和 (Q) 下的配对情况)。
- ( | x - y | ) 是计算在空间中从 (x) 到 (y) 的距离。
Wasserstein距离实际上衡量的是从一个分布到另一个分布的最小“成本”或“运输工作量”。
优势:
- 良好的梯度性质:与Kullback-Leibler散度等传统方法不同,Wasserstein距离在分布之间有更平滑的过渡。它不容易出现梯度消失问题,因此它在训练过程中更加稳定。
- 可用性:Wasserstein距离不仅适用于连续分布,还可以适用于离散分布,这使得它在处理一些复杂的数据分布时特别有用。
在GAN中的应用:
在生成对抗网络中,**Wasserstein GAN(WGAN)**引入了Wasserstein距离作为优化目标,解决了传统GAN中的训练不稳定问题。传统GAN在训练时存在判别器输出饱和和梯度消失的问题,而WGAN通过Wasserstein距离的引入,使得生成器和判别器的学习更加稳定,并且生成效果更好。