离群值(Outlier)是指在数据集中,与大多数其他数据点显著不同的数据点。换句话说,离群值是一个异常值,它与数据的整体趋势和模式偏差较大。离群值可能是由于数据录入错误、数据变异性或真实的稀有事件等原因引起的。
离群值的特点:
- 极端值:离群值通常远离数据的平均值或中位数。根据数据的分布,离群值可能远大于或远小于其他数据点。
- 不符合模式:离群值通常不符合数据的普遍规律或趋势,是一种异常情况。
- 统计意义:离群值往往会超出通过统计方法(例如1.5倍四分位间距法、标准差法等)计算出的某个范围。
离群值的类型:
- 全局离群值(点离群值):
-
这种离群值指的是数据集中明显偏离其他数据点的个别数据...