分类目录归档:人工智能

张量计算


  1. 张量的定义与基础概念
  2. 张量(Tensor)是一个数学对象,可以看作是向量和矩阵的推广。标量是零阶张量,例如一个单独的数字(5);向量是一阶张量,如(\vec{v}=(v_1,v_2,v_3));矩阵是二阶张量,例如(A=\begin{bmatrix}a_{11}&a_{12}\a_{21}&a_{22}\end{bmatrix})。更高阶的张量可以有更多的索引。例如,一个三阶张量(T)可以表示为(T_{ijk}),其中(i)、(j)、(k)是索引,用来定位张量中的元素。
  3. 在不同的维度下,张量有着不同的物理或几何意义。在物理学中,应力张量是二阶张量,它描述了物体内部的应力...

Read more

激活函数


  1. 定义与作用
  2. 激活函数(Activation Function)是神经网络中的一个关键组件。在神经网络中,神经元接收来自其他神经元的输入信号,这些输入信号经过加权求和后,通过激活函数进行非线性变换,产生神经元的输出。它的主要作用是为神经网络引入非线性因素,使神经网络能够拟合复杂的非线性函数关系。如果没有激活函数,无论神经网络有多少层,其本质上都只是一个线性组合模型,无法有效处理复杂的数据分布和任务。
  3. 常见类型
  4. Sigmoid函数
    • 公式与图像:Sigmoid函数的数学表达式为(y=\frac{1}{1 + e^{-x}})。其函数图像呈S形,值域在((0,1))之间。当(x)趋近于正无穷时...

Read more

偏微分-


  1. 偏微分的定义
  2. 对于多元函数(z = f(x_1,x_2,\cdots,x_n)),如果我们只考虑函数对其中一个自变量(例如(x_i))的变化率,而将其他自变量看作常数,那么这个变化率就是函数(z)关于(x_i)的偏导数,记为(\frac{\partial z}{\partial x_i})或(f_{x_i})。从极限的角度来定义,(\frac{\partial z}{\partial x_i}=\lim_{\Delta x_i\to0}\frac{f(x_1,\cdots,x_i+\Delta x_i,\cdots,x_n)-f(x_1,\cdots,x_i,\cdots,x_n)}{...

Read more

链式法则


  1. 定义
  2. 链式法则(Chain Rule)是微积分中的一个重要法则,用于计算复合函数的导数。如果有一个复合函数(y = f(g(x))),那么它的导数(\frac{dy}{dx}=\frac{df}{dg}\cdot\frac{dg}{dx})。也就是说,复合函数的导数是外层函数对内层函数的导数乘以内层函数对自变量的导数。
  3. 例如,设(y=(x^2 + 1)^3),可以把它看作是(y = f(g(x)))的形式,其中(g(x)=x^2+1),(f(u)=u^3)(这里(u = g(x)))。首先求(\frac{df}{du}=3u^2),再求(\frac{dg}{dx}=2x),然后根据链式...

Read more

反向传播


Backpropagation即反向传播,是一种在神经网络中用于计算梯度的算法,通常用于训练神经网络以最小化损失函数,以下是对其详细介绍:

基本原理

  • 前向传播:输入数据通过神经网络的各层进行正向传播,经过一系列的线性变换和激活函数运算,最终得到输出结果。
  • 计算损失:将输出结果与真实标签进行比较,通过损失函数计算出预测误差,即损失值。
  • 反向传播:从输出层开始,根据损失函数对输出层的偏导数,以及各层之间的权重和激活函数的导数,依次计算出每一层的梯度。然后根据这些梯度,使用优化算法来更新网络中的权重,以减小损失函数的值。

数学推导

  • 链式法则:反向传播算法的核心是链式法则,用于计算复合函数...

Read more

梯度下降-


梯度下降(Gradient Descent)是一种用于优化目标函数的迭代算法,广泛应用于机器学习和深度学习中,尤其是在最小化损失函数时。其核心思想是通过计算目标函数的梯度(即导数)来确定参数的更新方向,逐步逼近最优解。

梯度下降的基本原理

  1. 目标:最小化目标函数 ( J(\theta) ),其中 ( \theta ) 是模型的参数。
  2. 梯度:计算目标函数对参数的梯度 ( \nabla J(\theta) ),梯度方向是函数值上升最快的方向。
  3. 更新规则:沿着梯度的反方向更新参数,因为梯度下降的目标是最小化函数值。 [ \theta_{\text{new}} = \theta_{\...

Read more

前馈网络-AI


前馈网络(Feedforward Network)是一种常见的人工神经网络架构。在这种网络中,信息从输入层单向流向输出层,其间无反馈回路,神经元分层排列,信号依次传递。它主要包含输入层接收数据、隐藏层处理特征(可多层)及输出层给出结果。其特点有: - 高效计算:因结构简单,计算复杂度低,数据处理快,适处理大规模数据,如图像识别中快速处理像素数据。 - 易于训练:多采用反向传播算法优化权重,基于误差梯度调整权重以减预测误差,能快速收敛达优性能,像语音识别模型可借此高效学习语音特征与模式关联。 - 功能强大:通过合理设计网络结构与参数,可拟合复杂非线性函数关系,在图像、语音、自然语言处理领域...

Read more

偏态数据分布-


偏态数据分布(Skewed Distribution)是指数据的分布不对称,意味着数据集的分布在某一侧有更多的数据点,而另一侧则相对较少。根据数据分布的偏斜方向,偏态可以分为两种类型:

  1. 正偏(右偏)分布(Positively Skewed Distribution)
  2. 数据的右侧尾巴较长,意味着大多数数据点集中在分布的左侧。
  3. 均值 > 中位数 > 众数,即均值大于中位数,且中位数大于众数。
  4. 例如:收入、房价等数据通常呈正偏分布,因为大多数人或房产的价格较低,但少数人或豪宅的价格极高。

  5. 负偏(左偏)分布(Negatively Skewed Distribution)

    ...

Read more

金融思维链


金融思维链 (Chain of Thought, CoT) 是一种将金融领域复杂问题分解为可解释步骤的方法。它基于大语言模型 (LLM) 的提示工程,模拟人类思维逻辑,使模型在复杂的金融任务中表现出更高的准确性和可解释性。以下是金融思维链的核心特点和应用场景:


核心特点:

  1. 逐步推理: 将复杂任务分解为一系列明确的步骤,如收集数据、分析指标、进行假设推导和得出结论。
  2. 可解释性: 每一步推理逻辑清晰,使得结果更容易被人类理解和验证。
  3. 模块化设计: 可以组合多个工具和数据源,如新闻、财务报表和市场数据。
  4. 适用性广: 从市场预测到风险评估,覆盖量化交易、投资决策等领域。

示例流程:

以股...

Read more

COT-LM-AI


  1. 定义与原理
  2. Chain of Thoughts(CoT)是一种在自然语言处理中用于提升语言模型推理能力的技术。它的核心思想是引导语言模型生成一系列中间推理步骤,而不是直接给出答案。就像是在解决一个数学问题时,不是直接说出答案,而是详细地列出思考过程,如“首先,根据题目条件可以知道这是一个等差数列问题。然后,通过等差数列的通项公式计算出首项和公差……最后,得出答案。”
  3. 这种技术通过在输入提示(prompt)中加入示例,展示如何通过中间步骤来解决问题,让语言模型学会模仿这种推理方式。例如,在一个文本分类任务中,提示可以是“对于文本‘这部电影情节跌宕起伏,演员的表演也很出色’,首先分析情感词...

Read more