t - SNE(t - 分布随机邻域嵌入)
一、概述
t - SNE是一种广泛用于高维数据可视化和降维的机器学习算法。它的主要目的是将高维数据映射到低维空间(通常是二维或三维),同时尽可能地保留数据点之间的相对距离和分布关系。这种算法在数据分析、数据挖掘、机器学习等众多领域发挥着重要作用,尤其是在处理复杂的高维数据集时,能够帮助研究人员直观地理解数据的结构和模式。
二、原理
- 相似度度量
- 在高维空间中,t - SNE首先计算数据点之间的相似度。它使用条件概率来表示相似度。对于每个数据点(x_i),计算它与其他数据点(x_j)的条件概率(p_{j|i}),这个概率表示在给定数据点(x_i)...