FID-DL


  1. 定义
  2. FID即Fréchet Inception Distance,是一种用于评估生成模型(如生成对抗网络 - GAN、变分自编码器 - VAE等)生成样本质量的指标。它主要衡量生成样本的分布与真实样本分布之间的距离。
  3. 计算原理
  4. 特征提取
    • 利用在大规模图像数据集(如ImageNet)上预训练的Inception - v3模型来提取特征。Inception - v3是一个深度卷积神经网络,能够很好地捕捉图像的高级语义特征。对于生成样本和真实样本,都通过这个预训练模型来提取特征向量。
  5. 计算均值和协方差
    • 设生成样本经过特征提取后得到的特征向量集合为(m),其均值为(\mu_m),协方差矩阵为(\sum_m);真实样本特征向量集合为(n),均值为(\mu_n),协方差矩阵为(\sum_n)。
  6. FID计算
    • FID的计算公式为(FID = ||\mu_m - \mu_n||_2^2 + Tr(\sum_m+\sum_n - 2(\sum_m\sum_n)^{1/2})),其中(||\cdot||_2^2)表示欧几里得距离的平方,(Tr(\cdot))表示矩阵的迹(即矩阵主对角线元素之和)。简单来说,这个公式综合考虑了生成样本和真实样本特征分布的均值差异和协方差差异。
  7. 优势
  8. 考虑了分布的多个方面
    • 不同于一些只关注样本单一特征(如像素值)的评估指标,FID通过计算特征分布的均值和协方差,能够综合考虑生成样本在多个语义特征维度上与真实样本的差异。例如,它不仅能衡量生成图像和真实图像在颜色、纹理等基本特征上的差异,还能体现出在物体类别、场景结构等高级语义特征上的不同。
  9. 与人类感知相关性较好
    • 由于是基于能够提取高级语义特征的Inception - v3模型,FID的评估结果与人类对图像质量和相似性的感知有较好的相关性。一般来说,FID值越低,生成样本在人类视觉感知上就越接近真实样本。例如,在生成风景图像的任务中,FID值较低的生成模型所生成的风景图像在物体布局、色彩搭配等方面更符合人类对真实风景图像的认知。
  10. 广泛适用性
    • FID可以用于评估多种生成模型和不同类型的图像生成任务。无论是生成自然风景、人物肖像,还是其他复杂物体的图像,FID都能提供一个相对客观的评估。而且,它也可以用于比较不同模型架构或者不同训练方法下生成样本的质量差异。
  11. 局限性
  12. 对预训练模型的依赖
    • FID的计算依赖于Inception - v3模型的特征提取能力。如果预训练模型对于特定类型的图像或生成任务不能很好地提取特征,那么FID的评估结果可能会不准确。例如,对于一些非常特殊的图像类别(如医学图像中的某些罕见病变图像),Inception - v3可能没有经过针对性的训练,从而导致特征提取不充分,影响FID评估。
  13. 计算复杂度较高
    • 需要计算生成样本和真实样本特征向量的均值和协方差,并且涉及矩阵运算(如求协方差矩阵的平方根等),在处理大规模数据集或者复杂的生成模型时,计算开销较大。例如,当生成样本数量庞大时,计算特征向量的均值和协方差会消耗大量的计算资源和时间。