分类目录归档:人工智能

AlexNet


  1. 定义与背景
  2. AlexNet是一种具有开创性意义的深度卷积神经网络(Convolutional Neural Network,CNN)架构。它在2012年的ImageNet大规模视觉识别挑战赛(ILSVRC)中取得了巨大的成功,显著降低了图像分类任务的错误率,推动了深度学习在计算机视觉领域的广泛应用。

  3. 网络架构特点

  4. 层数与结构
    • AlexNet包含8层,其中5个卷积层和3个全连接层。卷积层主要用于自动提取图像中的局部特征,例如边缘、纹理等。例如,第一个卷积层使用了96个大小为11×11、步长为4的卷积核,这一层可以快速捕捉图像中的大尺度特征。
    • 全连接层则用于将前面提取的特征进行整...

Read more

均方根误差


  1. 定义
  2. RMSE是均方根误差(Root - Mean - Square Error)的缩写,它是一种用于衡量预测模型准确性的统计指标。对于一组预测值(\hat{y}i)和对应的真实值(y_i)((i = 1,2,\cdots,n)),RMSE的计算公式为:(RMSE=\sqrt{\frac{1}{n}\sum^{n}(\hat{y}_i - y_i)^2})。
  3. 简单来说,它先计算每个预测值与真实值差的平方的平均值,然后再取平方根。例如,有真实值序列([1,2,3])和预测值序列([1.2,1.8,3.1]),先计算差的平方:((1.2 - 1)^2+(1.8 - 2)^2+(3.1 -...

Read more

减均值方差


  1. 定义
  2. “减均值方差”可能是指减去均值后的方差。设一组数据为(x_1,x_2,\cdots,x_n),其均值为(\overline{x}=\frac{1}{n}\sum_{i = 1}^{n}x_i)。那么这组数据减去均值后得到新的数据(y_i=x_i - \overline{x})((i = 1,2,\cdots,n)),新数据(y_i)的方差为(Var(y)=\frac{1}{n - 1}\sum_{i = 1}^{n}(y_i - \overline{y})^2),由于(\overline{y} = 0)(因为(y_i)是由(x_i)减去均值得到的),所以(Var(y)=\fra...

Read more

槽填充


  1. 定义
  2. 槽填充(Slot Filling)是自然语言处理(NLP)中的一项任务,特别是在对话系统、信息抽取等领域应用广泛。它主要是从用户输入的文本(如对话句子、文档段落等)中提取特定类型的信息,并将这些信息填充到预先定义好的槽(Slot)中。这些槽代表了某种概念或实体的属性,例如在酒店预订系统中,可能有“入住日期”“退房日期”“房间类型”等槽。

  3. 应用场景

  4. 对话系统:在智能客服对话场景下,当用户说“我想预订一间明天入住、后天退房的标准间”,槽填充任务就是从这个句子中提取出“入住日期=明天”“退房日期=后天”“房间类型=标准间”这些信息,填充到相应的槽中,以便系统后续根据这些信息进行...

Read more

注意力矩阵


  1. 定义
  2. 在深度学习领域,特别是在自然语言处理(NLP)和计算机视觉(CV)的一些模型(如Transformer架构)中,注意力矩阵(Attention Matrix)是注意力机制(Attention Mechanism)的关键组成部分。它用于衡量输入序列(如句子中的单词序列或图像中的区域序列)中各个元素之间的相关性或者重要性程度。

  3. 原理和计算方式

  4. 以自然语言处理为例:假设我们有一个句子,将其表示为一系列的词向量${x_1, x_2, \cdots, x_n}$。在使用注意力机制时,首先通过线性变换(例如使用权重矩阵$W_Q$、$W_K$、$W_V$)分别得到查询向量(Query ...

Read more

特征维度


  1. 定义
  2. “feature dimension”通常指的是特征维度。在机器学习和数据分析的语境中,数据样本通常是由多个特征(features)来描述的,而特征维度就是这些特征的数量或者说用于表示数据的每个样本的向量空间的维度。

  3. 示例说明

  4. 假设我们要对一群学生的学习情况进行分析,我们收集了每个学生的年龄、成绩、学习时间这三个特征的数据。那么这里的特征维度就是3,因为每个学生的数据可以用一个三维向量来表示,比如一个学生的数据可以表示为[18(年龄), 85(成绩), 5(学习时间,单位:小时)]。

  5. 在不同场景下的作用

  6. 数据可视化:当特征维度较低(一般不超过3维)时,我们可以比较...

Read more

位置编码


位置编码(Positional Encoding)是在处理序列数据时,为了让模型能够感知序列中元素的位置信息而引入的一种技术,在Transformer架构等深度学习模型中具有重要作用,以下是具体介绍:

背景与作用

  • 在处理序列数据如自然语言文本时,模型需要理解每个元素在序列中的位置信息。然而,自注意力机制本身对序列中元素的位置是不敏感的,位置编码就是为了给模型提供这种位置信息,使模型能够更好地捕捉序列的顺序和结构。

常见方法

  • 绝对位置编码
    • 正弦余弦位置编码:这是Transformer中使用的一种经典位置编码方式。它通过使用正弦和余弦函数来生成位置编码向量。对于序列中的每个位置 (po...

Read more

泰勒展开-


  1. 定义
  2. 泰勒展开(Taylor Expansion)是一种用函数在某一点的信息来描述其附近取值的数学方法。它的基本思想是将一个复杂的函数表示为一个无穷级数的和,这个无穷级数是由函数在某一点的各阶导数构成的。

  3. 对于一个函数(f(x)),如果它在点(x = a)处具有(n)阶导数,那么它在(a)点附近可以展开为泰勒级数:(f(x)=\sum_{n = 0}^{\infty}\frac{f^{(n)}(a)}{n!}(x - a)^{n}),其中(f^{(n)}(a))表示(f(x))在(a)点的(n)阶导数,(n!)是(n)的阶乘。

  4. 泰勒多项式(有限项展开)

  5. 在实际应用中,通常...

Read more

线性激活函数


  1. 定义和特点
  2. 线性激活函数(Linear Activation Function)是一种在神经网络中用于神经元输出计算的函数。它的基本形式为(y = mx + b),其中(x)是神经元的输入,(m)是斜率(权重),(b)是截距(偏置)。从数学角度看,它的输出是输入的线性变换。例如,在一个简单的神经元模型中,如果输入是(x),权重是(w),偏置是(b),那么使用线性激活函数时,神经元的输出(y = wx + b)。
  3. 这种激活函数的特点是它不会引入非线性因素。在神经网络的多层结构中,如果所有神经元都使用线性激活函数,那么整个神经网络本质上相当于一个线性回归模型。因为多个线性变换的组合仍然是...

Read more

Xavier初始化


  1. Xavier初始化的定义
  2. Xavier初始化(Xavier Initialization)也称为Glorot初始化,是一种在神经网络中用于初始化权重的方法。它的目的是帮助缓解深度神经网络训练过程中的梯度消失和梯度爆炸问题,使得网络能够更有效地学习。

  3. 原理及数学基础

  4. 基于方差一致性假设:Xavier初始化假设在一个神经网络层中,输入和输出的方差应该保持一致。对于一个线性层(如全连接层),假设输入为(x),权重为(W),输出为(y = Wx + b)((b)为偏置,在这里暂不重点考虑偏置对初始化的影响)。根据概率论中的方差性质,(Var(y)=Var(Wx)=E[W]^2Var(x...

Read more