分类目录归档:基础设施

仿射变换-


  1. 定义与概念

    • 仿射变换(Affine Transformation)是一种几何变换,它是线性变换(如旋转、缩放、剪切)和平移变换的组合。在二维空间中,仿射变换可以用一个(2\times3)的矩阵来表示;在三维空间中,则用一个(3\times4)的矩阵表示。这种变换保持了直线的平行性、共线性(即如果三个点在一条直线上,变换后它们仍然在一条直线上)和比例关系(两个平行线段的长度比例在变换后保持不变)。
  2. 数学表示(以二维为例)

    • 对于二维平面上的一个点((x,y)),经过仿射变换后的坐标((x',y'))可以通过以下矩阵乘法和加法运算得到: [ \begin{bmatrix} x'\...

Read more

图像平移-


  1. 定义与概念

    • 图像变换(Image Transformation):指对图像进行各种操作,使其在空间、颜色、形状等方面发生改变的过程。它涵盖了多种不同类型的变换方式,旨在满足不同的图像处理需求,比如增强图像的视觉效果、提取特定特征、适配不同的应用场景等。
    • 图像平移(Image Translation):是图像变换中的一种基本操作,它在二维平面内按照给定的水平和垂直方向的偏移量,移动图像中所有像素的位置,就好像将整个图像在一个平面上进行了滑动,而图像本身的内容(如物体形状、颜色等)并未发生实质性改变,只是所处的空间位置发生了变化。
  2. 图像平移的数学原理(以二维图像为例)

    • 坐标变换...

Read more

图像变换扩充-


  1. 定义与概念
  2. 图像变换扩充(Image Transformation Expansion)是一种在图像处理和计算机视觉领域用于增加数据多样性的技术。它通过对原始图像应用各种变换操作,生成新的图像样本,这些新样本在保持原始图像关键信息的同时,具有不同的外观特征,从而扩充了训练数据集,有助于提高模型的泛化能力和鲁棒性。

  3. 常见的图像变换扩充方法

  4. 几何变换
    • 平移(Translation):将图像在平面内沿水平或垂直方向移动一定的距离。例如,在图像分类任务中,通过对原始图像进行随机的上下左右平移,可以让模型学习到物体在图像不同位置时的特征。对于一个包含动物的图像,平移后的图像可能使动物处于...

Read more

端到端学习-


  1. 定义与概念
  2. “端到端学习(End - to - End Learning)”是一种机器学习和深度学习的策略。在这种学习方式中,模型直接从原始数据输入(例如原始图像、原始文本等)开始学习,自动提取特征并生成最终的输出(例如分类结果、翻译后的文本等),中间不需要人工设计和提取复杂的特征。也就是说,整个学习过程是一个从输入到输出的完整流程,模型自身去学习如何将输入数据转换为正确的输出,就像一条完整的管道,数据从一端输入,经过模型内部的各种处理,直接在另一端得到期望的输出。

  3. 工作原理与流程

  4. 以图像分类为例:在传统的图像分类方法中,可能需要先使用手工特征提取方法(如SIFT - 尺度不变...

Read more

卷积神经网络CNN对缩放和旋转的敏感性


  1. 理解卷积神经网络(CNN)对缩放和旋转的敏感性
  2. 卷积神经网络的工作原理基础:CNN主要是通过卷积层中的卷积核在输入数据(如图像)上滑动来提取特征。卷积核学习到的是特定局部区域的特征模式,这些模式在一定程度上与输入数据的空间布局相关。例如,在图像中,卷积核可能学习到边缘、角落等特征,并且这些特征的位置和相对大小在卷积核的学习过程中是有一定固定模式的。
  3. 缩放问题:当图像发生缩放时,CNN的性能会受到影响。假设一个卷积核学习到了某个物体在特定大小下的特征模式,比如一张正常大小的人脸图像中眼睛的形状特征。如果图像被放大,眼睛的大小相对于卷积核所学习的模式发生了变化,原来的卷积核可能无法很好地匹...

Read more

浅层模型-


  1. 定义与分类
  2. 浅层模型是指在机器学习和数据挖掘领域中,那些结构相对简单、不具备很多隐藏层(如神经网络中的隐藏层或者模型复杂层次结构)的模型。
  3. 线性模型
    • 线性回归(Linear Regression)是典型的浅层模型。它假设因变量和自变量之间存在线性关系,通过最小二乘法等方法拟合一条直线(在多元情况下是一个超平面)来预测目标变量。例如,在预测房屋价格时,根据房屋面积、房间数量等自变量构建线性回归模型,找到最佳的权重系数,使得预测价格与实际价格的误差平方和最小。
    • 逻辑回归(Logistic Regression)主要用于二分类问题。它将线性函数的输出通过Sigmoid函数映射到((0,1)...

Read more

感知机-


感知机(Perceptron)作为神经网络的基础单元,以下将从定义、原理、学习算法、实现示例等多个方面对其进行深入剖析:

定义与基本结构

  • 定义:感知机是一种二分类的线性分类模型,它是神经网络的基本组成单元,由输入层、输出层组成,有时会带有一个偏置单元。
  • 基本结构:输入层接收外部输入信号,每个输入信号对应一个权重,表示该输入对输出的影响程度。偏置单元用于调整神经元的激活阈值,在计算时与权重类似。输出层根据输入信号的加权和与偏置的结果,通过激活函数产生最终的输出。

工作原理

  • 前向传播:在工作时,感知机将输入数据与相应的权重相乘,然后将所有乘积相加,再加上偏置项,得到一个净输入值。将净输...

Read more

全连接层-


在深度学习中,Dense Layer(全连接层)是一种非常常见且重要的神经网络层,以下是对其的详细介绍:

定义与基本原理

  • 定义:Dense Layer也叫全连接层,是一种在神经网络中,当前层的每个神经元与前一层的所有神经元都相互连接的层,其神经元之间的连接是全连接的方式,即每个输入神经元都与每个输出神经元相连。
  • 基本原理:在全连接层中,输入数据被看作是一个一维向量,每个神经元对输入数据进行加权求和,并加上一个偏置项,然后通过一个激活函数得到输出。

数学表达式

  • 假设全连接层的输入为$x$,是一个维度为$n$的向量,权重矩阵为$W$,其形状为$(m, n)$,其中$m$是该层神经元的数...

Read more

交叉熵-


  1. 定义与概念
  2. 交叉熵(Cross - Entropy)是信息论中的一个概念,用于衡量两个概率分布之间的差异程度。给定两个概率分布(p)(真实分布)和(q)(预测分布),它们的交叉熵(H(p,q)=-\sum_{i}p(i)\log q(i))。这里(i)遍历所有可能的事件,并且假设概率分布是离散的;如果是连续分布,则用积分形式表示。例如,在一个简单的二分类问题中,假设真实标签的概率分布(p = [1,0])(表示正类概率为(1),负类概率为(0)),预测概率分布(q = [0.8,0.2]),那么交叉熵(H(p,q)=-(1\times\log0.8 + 0\times\log0.2)...

Read more

Softmax回归模型-


  1. 定义与基本原理
  2. 定义:Softmax回归模型是一种用于多分类问题的概率模型。它将一个包含多个数值的输入向量转换为一个概率分布向量,这个概率分布向量表示输入数据属于各个类别可能性的大小。例如,在一个图像分类问题中,输入是图像的特征向量,Softmax回归模型会输出这个图像属于每个可能类别(如猫、狗、兔子等)的概率。
  3. 基本原理:假设输入向量为(\boldsymbol{x}=(x_1,x_2,\cdots,x_n)),对于一个有(k)个类别的多分类问题,Softmax回归模型首先计算每个类别的得分(z_j),一般通过线性变换(z_j = \boldsymbol{w}j^T\boldsymb...

Read more