分类-监督学习


  1. 定义
  2. 在机器学习和数据挖掘等领域,分类(Classification)是一种监督学习(Supervised Learning)任务。它的目标是根据已知类别标签的训练数据构建一个模型,使得该模型能够对新的、未标记的数据进行类别预测。简单来说,就是将数据划分到不同的类别中。

  3. 常见的分类算法

  4. 决策树(Decision Tree)
    • 决策树是一种基于树结构的分类方法。它通过对特征进行一系列的测试来划分数据。例如,在一个判断水果是苹果还是橙子的分类问题中,决策树可能首先根据形状特征进行划分,如果形状是圆形,再根据颜色进一步划分。内部节点表示特征测试,分支表示测试的结果,叶节点表示类别。决策树的优点是易于理解和解释,能够处理离散型和连续型数据。但是,它容易过拟合,需要进行剪枝(Pruning)等操作来提高泛化能力。
  5. 朴素贝叶斯(Naive Bayes)
    • 朴素贝叶斯基于贝叶斯定理,假设特征之间相互独立。在文本分类中应用广泛,比如判断一封电子邮件是垃圾邮件还是正常邮件。它通过计算每个类别下各个特征出现的概率,然后根据贝叶斯定理计算给定特征下属于某个类别的后验概率。朴素贝叶斯算法简单、计算效率高,在数据量较大时表现良好,但由于其假设特征相互独立,在实际情况中这个假设可能不成立,会影响分类准确性。
  6. 支持向量机(Support Vector Machine,SVM)
    • SVM的目标是找到一个超平面(Hyperplane),将不同类别的数据分开,并且使得间隔(Margin)最大化。在二维空间中,超平面是一条直线;在三维空间中,超平面是一个平面;在更高维空间中,超平面是一个超平面。例如,在区分两类线性可分的数据点时,SVM会寻找最优的直线将它们分开。对于非线性可分的数据,SVM可以通过核函数(Kernel Function)将数据映射到高维空间,使其在高维空间中线性可分。SVM在处理小样本、高维数据时表现出色,具有较好的泛化能力。
  7. K - 近邻(K - Nearest Neighbors,KNN)

    • KNN是一种基于实例的分类算法。对于一个待分类的数据点,它会在训练数据中找到与该点距离最近的(K)个邻居,然后根据这(K)个邻居的类别来决定该点的类别。例如,在一个根据身高和体重来判断性别(男或女)的问题中,对于一个新的身高体重数据点,KNN会找到与之最近的(K)个已知性别的数据点,然后通过多数表决的方式确定该新数据点的性别。KNN算法简单直观,但计算成本较高,尤其是在处理大规模数据时,并且(K)值的选择会影响分类结果。
  8. 分类任务的评估指标

  9. 准确率(Accuracy)
    • 准确率是最直观的评估指标,它定义为正确分类的样本数占总样本数的比例。计算公式为(Accuracy=\frac{TP + TN}{TP + TN+FP + FN}),其中(TP)(True Positive)是真正例,即实际为正类且被预测为正类的样本数;(TN)(True Negative)是真负例,即实际为负类且被预测为负类的样本数;(FP)(False Positive)是假正例,即实际为负类但被预测为正类的样本数;(FN)(False Negative)是假负例,即实际为正类但被预测为负类的样本数。不过,准确率在类别不平衡的情况下可能会产生误导,例如在一个正类样本占比很少的数据集里,即使模型总是预测为负类,准确率也可能很高。
  10. 精确率(Precision)和召回率(Recall)
    • 精确率是指预测为正类的样本中真正为正类的比例,计算公式为(Precision=\frac{TP}{TP + FP})。召回率是指实际为正类的样本中被正确预测为正类的比例,计算公式为(Recall=\frac{TP}{TP + FN})。精确率和召回率之间通常存在权衡关系,例如在信息检索中,提高精确率可能会降低召回率,反之亦然。
  11. F1 - 分值(F1 - Score)

    • F1 - 分值是精确率和召回率的调和平均数,计算公式为(F1=\frac{2\times Precision\times Recall}{Precision + Recall})。它综合考虑了精确率和召回率,在评估分类模型性能时,当精确率和召回率同等重要时,F1 - 分值是一个很好的衡量指标。
  12. 应用场景

  13. 图像分类
    • 在计算机视觉领域,分类用于图像识别,如区分不同种类的动物、植物、交通工具等。例如,在自动驾驶系统中,需要对摄像头捕捉到的图像进行分类,识别出是行人、车辆还是交通标志等,为驾驶决策提供信息。
  14. 文本分类
    • 在自然语言处理中,文本分类应用广泛。比如新闻分类,将新闻文章分类为体育、娱乐、政治等不同类别;情感分析,判断文本的情感倾向是正面、负面还是中性,可用于产品评论分析、社交媒体舆情监测等。
  15. 医疗诊断
    • 在医学领域,分类可以帮助医生进行疾病诊断。例如,根据患者的症状、检查结果等数据,将患者分类为患有某种疾病或健康状态,辅助医生做出更准确的诊断决策。