分类目录归档:机器学习

源数据集


源数据集(Source Dataset)是指在进行数据分析、机器学习、数据挖掘等任务时,最初获取的未经处理或仅经过初步处理的原始数据集合,以下是关于它的详细介绍:

特点

  • 原始性:它是最原始的数据记录,保留了数据的初始状态和所有细节,包括可能存在的噪声、错误、冗余等信息。
  • 规模性:其规模大小不一,可能是少量的实验数据,也可能是海量的互联网数据或企业业务数据等。
  • 多样性:数据类型丰富多样,涵盖结构化数据(如关系型数据库中的表格数据)、半结构化数据(如XML、JSON格式的数据)和非结构化数据(如文本、图像、音频、视频等)。

常见类型

  • 图像数据集:如MNIST数据集,由手写数字的图像组成...

Read more

Softmax回归


Softmax回归是一种用于多分类问题的广义线性回归模型,在机器学习和深度学习领域中有着广泛的应用,以下是对其详细介绍:

基本原理

  • Softmax回归将输入特征向量映射为一个类别概率分布,通过计算每个类别的概率,来预测输入样本属于各个类别的可能性。
  • 假设输入特征向量为(\mathbf{x}),模型的参数为(\mathbf{W})和(\mathbf{b}),其中(\mathbf{W})是权重矩阵,(\mathbf{b})是偏置向量。对于一个具有(C)个类别的多分类问题,Softmax回归的计算公式如下: [ \begin{align} \mathbf{z}&=\mathbf{W}...

Read more

特征抽取


特征抽取(Feature Extraction)是一种从原始数据中自动提取具有代表性和区分性特征的技术,广泛应用于机器学习、数据挖掘、计算机视觉、自然语言处理等领域,以下是对其详细介绍:

概念及目的

  • 旨在将原始数据转换为更适合后续分析和处理的形式,通过对原始数据进行数学变换或映射,提取出能够有效描述数据本质特征的低维向量表示,从而减少数据的冗余和噪声,提高算法的效率和性能。

方法

  • 基于统计的方法
    • 主成分分析(PCA):通过对数据协方差矩阵进行特征分解,找到数据的主成分,将原始数据投影到由主成分构成的低维空间中,实现数据的降维和特征提取。常用于数据可视化、图像压缩等领域。
    • 线性判别分...

Read more

推土机距离


  1. 定义
  2. Wasserstein距离,也被称为“推土机距离”(Earth - Mover's Distance,EMD),用于衡量两个概率分布之间的距离。从直观上来说,它可以被理解为将一个概率分布转换为另一个概率分布所需要的最小“工作量”。对于两个概率分布(P)和(Q),假设存在一个联合分布(\gamma(x,y)),其边缘分布分别是(P)和(Q),那么(Wasserstein)距离(以(p = 1)为例)定义为(W_1(P,Q)=\inf_{\gamma \in \Pi(P,Q)}\sum_{x,y}\vert x - y\vert\gamma(x,y)),其中(\Pi(P,Q))是所有...

Read more

正态分布


  1. 定义
  2. 正态分布(Normal Distribution),也称为高斯分布(Gaussian Distribution),是一种非常重要的概率分布。它的概率密度函数是一个钟形曲线,其数学表达式为:(f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x - \mu)^{2}}{2\sigma^{2}}}),其中(\mu)是均值(mean),它决定了分布的中心位置;(\sigma)是标准差(standard deviation),它决定了分布的宽度或者说离散程度。当(x = \mu)时,函数取得最大值,曲线关于(x=\mu)对称。
  3. 特征
  4. 对称性:正态分布的...

Read more