Embedding 原理概述
Embedding(嵌入)是机器学习和人工智能领域的核心概念,本质是将高维、离散、稀疏的数据(如文字、图片、音频、用户、商品等)转换为低维、连续、稠密的实数向量表示的过程。这些向量被称为嵌入向量(Embedding Vector),其神奇之处在于能在向量空间中捕获并保留原始数据的语义、关系或特征。
为何需要 Embedding?
- 维数灾难与稀疏性: 像“词袋模型”这类方法,每个词用一个维度表示,词典庞大时向量维度极高且极度稀疏(大部分元素为0),计算效率低,难以捕捉语义。
- 语义鸿沟: 离散符号本身无法直接表达“相似性”(如“猫”和“狗”都比“汽车”更接近“...