分类目录归档：人工智能

梯度消失-

115 views

定义
梯度消失（Gradient Vanishing）是指在深度神经网络的反向传播过程中，梯度（用于更新模型参数的信号）变得越来越小，趋近于零的现象。这使得模型参数更新缓慢，甚至无法有效更新，导致训练过程效率低下，模型难以收敛到一个较好的状态。例如，在一个很深的多层感知机（MLP）中，随着反向传播的进行，梯度可能会在逐层传递时逐渐衰减，最终导致底层的神经元几乎无法更新。
产生原因
激活函数的选择：许多传统的激活函数，如Sigmoid函数和Tanh函数，在其输入值处于某些区间时，导数非常小。以Sigmoid函数$f(x)=\frac{1}{1 + e^{-x}}$为例，当$x$的...

梯度爆炸-

115 views

定义
梯度爆炸（Gradient Explosion）是指在训练深度神经网络时，计算得到的梯度值变得非常大，使得模型参数的更新量过大，从而导致训练过程不稳定甚至无法收敛的现象。例如，在反向传播算法中，梯度是用于更新神经网络权重的重要依据。如果梯度爆炸发生，权重可能会在一次更新中变得极大，这就像在一个方向上迈出了巨大的、不合理的一步，导致模型无法正常学习。
产生原因
深度神经网络结构：在非常深的神经网络中，由于梯度在反向传播过程中是通过链式法则层层相乘计算得到的。如果每一层的梯度都大于1，那么随着层数的增加，梯度就会以指数形式增长。例如，假设一个有100层的神经网络，每层的梯度为...

多层感知机-

124 views

定义
多层感知机（Multilayer Perceptron，MLP）是一种前馈神经网络，它由多个神经元组成，这些神经元分布在不同的层次中。一个典型的MLP包括输入层、一个或多个隐藏层和输出层。输入层接收外部数据，如在图像分类任务中，输入层的神经元数量可能与图像的像素数量有关；隐藏层用于对输入数据进行特征提取和转换，每个隐藏层的神经元通过权重与前一层的神经元相连，并通过激活函数进行非线性变换；输出层则根据任务的要求输出最终结果，例如在分类任务中输出类别概率，在回归任务中输出预测值。
结构组成
输入层：输入层神经元的数量取决于输入数据的特征数量。例如，在一个预测房屋价格的任务中，...

Dropout-

117 views

定义
Dropout是一种在神经网络训练过程中广泛使用的正则化方法。它是在训练阶段，以一定的概率（称为dropout概率，通常用 $p$ 表示）随机地将神经元的输出设置为0，就好像这些神经元被“丢弃”了一样。例如，在一个全连接神经网络层中，如果dropout概率为0.5，那么在每次前向传播过程中，大约有一半的神经元输出会被强制变为0。而在测试阶段，神经元的输出通常会根据训练阶段的dropout概率进行缩放，以保证期望输出与训练阶段的相同。
作用原理
防止过拟合：过拟合是指神经网络过度学习训练数据中的细节和噪声，而对新的数据泛化能力差。Dropout通过随机丢弃神经元，使得网络不...

无差别的加入噪音

113 views

定义
“无差别的加入噪音”是一种数据处理操作。通常是指在数据集中以一种相对均匀、没有特定偏向的方式添加随机干扰因素（即噪音）。例如，在一个时间序列数据集中，对于每一个数据点，按照相同的概率分布（如高斯分布、均匀分布等）随机地添加一个数值作为噪音。
目的和应用场景
模型鲁棒性测试：在机器学习和数据分析中，为了测试模型的鲁棒性，会无差别地加入噪音。例如，在训练好一个图像分类模型后，在测试图像数据上无差别地加入高斯噪音，观察模型的准确率变化。如果模型在加入噪音后的准确率下降幅度较小，说明模型具有较好的鲁棒性。以人脸识别模型为例，在实际应用场景中，图像可能会受到光照变化、轻微抖动等因素产生噪音...

岭回归

121 views

定义
Tikhonov正则化（Tikhonov Regularization）也被称为岭回归（Ridge Regression），是一种用于解决线性回归中可能出现的过拟合问题的正则化方法。给定一个线性回归模型(y = X\beta+\epsilon)，其中(y)是观测值向量（(n\times1)），(X)是设计矩阵（(n\times p)），(\beta)是系数向量（(p\times1)），(\epsilon)是误差向量。传统的最小二乘估计是求(\hat{\beta}=(X^{T}X)^{-1}X^{T}y)，使得残差平方和(\left|y - X\beta\right|^{2})最小...

AI大模型技术架构全景图

168 views

以下是AI大模型技术架构全景图的详细介绍：

基础设施层

GPU（图形处理单元）：针对并行计算进行了优化，在处理大规模数据时优势显著，尤其适用于图像处理和神经网络训练等深度学习任务，能大幅提升计算效率。
CPU（中央处理单元）：作为通用处理器，承担大部分计算任务，在执行逻辑运算和控制任务时表现高效，是计算机系统的关键部分。
RAM（随机存取存储器）：提供计算过程中快速读写数据的临时存储空间，存放正在运行的程序和数据，以便CPU能够迅速访问，从而提升整体计算效率。
HDD（硬盘驱动器）：主要用于存储大量训练数据和模型文件，虽然其访问速度不及RAM，但凭借较大的存储容量，成为长期保存数据的主...

权重衰退-

111 views

一、权重衰退的定义

权重衰退（Weight Decay）是一种在机器学习，特别是神经网络训练过程中经常使用的正则化方法。其主要目的是防止模型过拟合。

在神经网络中，模型的参数（也就是权重）会在训练过程中根据损失函数的梯度不断更新。而权重衰退会在每次更新权重时，给权重一个额外的衰减力，让权重的值不会变得过大。简单来说，它在损失函数中添加了一个惩罚项，这个惩罚项与权重的大小有关。

从数学角度看，假设原始的损失函数是 $L(\theta)$，其中 $\theta$ 代表模型的所有参数（权重）。加入权重衰退后的损失函数可以写成：$L(\theta)+\frac{\lambda}{2}\sum_{...

模型剪枝-

143 views

定义与概念
模型剪枝（Model Pruning）是一种用于减少机器学习模型复杂度的技术。它的核心思想是去除模型中对最终性能贡献较小或者冗余的部分，如神经网络中的神经元、连接或者决策树中的某些分支等，同时尽量保持模型的性能不变。就像是修剪树木一样，把不必要的枝叶剪掉，让树木（模型）更加精简高效。
目的和重要性
减少计算资源消耗：随着模型复杂度的增加，其在存储和计算方面的需求也会显著增加。例如，大型的深度神经网络可能需要大量的内存来存储模型参数，并且在推理（预测）阶段需要很长的计算时间。通过剪枝，可以减少模型的参数数量，从而降低存储需求和计算时间。对于在资源受限的设备（如移动设备...

模型容量-

139 views

定义与概念
模型容量（Model Capacity）是指机器学习模型能够学习到的函数的复杂程度或者多样性。它可以被看作是模型拟合各种数据模式的潜力。简单来说，模型容量决定了模型可以多么复杂地去拟合数据。例如，一个具有高容量的神经网络可能有许多层和神经元，能够学习到非常复杂的数据关系；而一个简单的线性回归模型容量较低，只能学习到线性关系。
与模型复杂度的关系
模型复杂度（Model Complexity）通常是对模型结构复杂程度的直观描述，而模型容量更侧重于模型能够学习到的函数空间的大小。一般情况下，模型复杂度越高，模型容量越大。例如，在决策树模型中，树的深度越深、叶子节点越多，模型就越...

从零构建开源智能系统

构建专属智能系统，AI赋能加速成为领域专家。