开放集识别


一、定义

Open - set recognition(开放集识别)是一种在计算机视觉、模式识别等领域中使用的概念。它主要处理的情况是在训练阶段和测试阶段的数据分布不同,测试阶段会出现训练阶段没有见过的类别(即未知类别)的数据。

传统的分类任务(如闭集分类)假设测试数据中的类别都是在训练数据中出现过的,而开放集识别则更贴近现实世界的复杂情况。例如,在一个人脸识别系统的训练过程中,我们只使用了公司内部员工的人脸图像进行训练。但在实际使用场景中,可能会有外来人员(未知类别)出现在摄像头前,开放集识别就是要在识别出已知员工的同时,能够判断出未知人员。

二、关键要素

  1. 已知类别(Known Classes)
  2. 这些是在训练数据集中出现过的类别。模型通过对这些已知类别数据的学习,建立起对它们的识别能力。例如,在一个动物识别系统中,已知类别可能包括猫、狗、兔子等,模型通过对大量猫、狗、兔子的图像进行学习,学会识别这些动物的特征,如猫的眼睛形状、狗的尾巴形态、兔子的耳朵长度等。
  3. 未知类别(Unknown Classes)
  4. 是在训练阶段没有出现过的类别。对于模型来说,这些类别是全新的,没有预先学习过其特征。继续以上面动物识别为例,未知类别可能是袋鼠、考拉等,这些动物的图像没有在训练集中出现,模型需要能够判断出它们不属于已知的猫、狗、兔子类别。
  5. 决策边界(Decision Boundary)
  6. 用于区分已知类别和未知类别。在特征空间中,模型需要确定一个边界,将已知类别所在的区域和可能的未知类别区域划分开。这个边界的确定是开放集识别的一个关键问题。例如,在一个二维特征空间(如根据动物的体长和体重构建的特征空间)中,模型要为猫、狗、兔子这三个已知类别分别确定一个区域,并且在这些区域之外的部分被视为可能是未知类别。

三、主要方法

  1. 基于阈值的方法(Threshold - based Methods)
  2. 这种方法通过设置一个阈值来判断输入数据是否属于已知类别。在分类过程中,模型会计算输入数据与已知类别模型(如支持向量机模型、神经网络模型等)的距离或者相似度。如果这个距离或相似度大于某个阈值,就判定为未知类别;否则,判定为已知类别中的某一个。
  3. 例如,在一个手写数字识别任务中,对于一个输入的手写数字图像,模型计算它与训练好的数字0 - 9模型的相似度。如果最大相似度低于0.6(阈值),则认为这个数字可能是一个未知的符号或者数字,不属于0 - 9中的任何一个;如果最大相似度高于0.6,则认为它是0 - 9中的某一个数字,再根据具体的相似度值来确定是哪一个数字。
  4. 生成模型方法(Generative Model Approaches)
  5. 利用生成模型(如生成对抗网络 - GANs、变分自编码器 - VAE等)来学习已知类别数据的分布。通过生成模型生成已知类别数据的样本,然后与输入数据进行比较。如果输入数据与生成的样本差异较大,且不符合已知类别数据的分布规律,就判定为未知类别。
  6. 例如,在一个图像识别任务中,使用GAN来生成已知类别图像的分布。对于一个新的输入图像,如果它不能很好地匹配由GAN生成的已知类别图像的分布特征,如纹理、颜色、形状等,那么就将其判断为未知类别。
  7. 基于特征空间划分的方法(Feature - space Partitioning Methods)
  8. 对特征空间进行划分,为已知类别划分出各自的子空间,剩余的空间部分则被视为可能的未知类别空间。这种方法通常结合聚类算法或者密度估计算法来实现。
  9. 例如,在一个物体形状识别任务中,通过聚类算法将已知形状(如圆形、方形、三角形)的物体在特征空间(如根据物体的周长、面积等特征构建的空间)中划分出各自的区域。当一个新的物体形状出现时,如果它不在这些已知形状的区域内,就判断为未知形状。

四、应用场景

  1. 安全监控领域
  2. 在监控系统中,开放集识别可以用于区分已知的授权人员和未知的闯入者。例如,在机场、银行等场所的监控摄像头系统中,通过对员工和授权访客的面部、行为等特征进行训练,能够识别出这些已知人员,同时对于从未在训练数据中出现的潜在危险人物(如恐怖分子、小偷等)进行预警,判断为未知类别人员并发出警报。
  3. 生物识别技术
  4. 除了人脸识别,在指纹识别、虹膜识别等生物识别技术中也有应用。以指纹识别为例,系统在对已注册用户的指纹进行训练后,当有新的指纹输入时,开放集识别可以判断这个指纹是属于已知用户还是未知用户,从而提高系统的安全性和准确性。
  5. 自然物种识别
  6. 对于生态研究人员来说,在野外进行物种识别时,开放集识别可以帮助他们区分已知的物种和可能新发现的物种。例如,通过对已知植物或动物物种的图像、特征等数据进行训练,当在野外拍摄到新的生物样本时,系统可以判断这个样本是已知物种还是可能的新物种。