分类目录归档:人工智能

预训练-


  1. 定义
  2. “pre - train”(预训练)在机器学习和自然语言处理等领域是一种重要的训练策略。它是指在大规模的通用数据上先对模型进行初步训练,使模型学习到数据中的一般特征和模式,得到一个具有一定泛化能力的初始模型状态。
  3. 例如,在自然语言处理中,预训练语言模型可以在大量的文本语料(如互联网文本、书籍、新闻等)上进行训练,这个过程中模型学习到词汇的语义、语法结构、句子之间的关系等知识。

  4. 预训练的方法和技术

  5. 无监督学习方法
    • 自监督学习(Self - supervised Learning):这是预训练中常用的方法。模型通过自己预测输入数据的一部分来进行学习。例如,在语言模型的预训练中...

Read more

标量-


在数学及相关领域中,“scalar”通常指“标量”,以下是关于标量的详细介绍:

1. 定义

  • 标量是只有大小,没有方向的量。与之相对的是向量(vector),向量既有大小又有方向。例如,常见的温度、质量、时间、长度等物理量都是标量。像室内的温度是25摄氏度,这里的“25摄氏度”仅体现了数值大小,不存在方向的概念,所以温度就是一个标量;再比如一个物体的质量是5千克,“5千克”同样只是一个表示多少的数值,属于标量范畴。

2. 与向量的区别

  • 几何表示差异
    • 向量在几何上通常用有向线段来表示,线段的长度表示向量的大小(模长),箭头所指的方向表示向量的方向。比如在平面直角坐标系中,向量可以用坐...

Read more

审计框架-


  1. 定义
  2. 审计框架(Audit Framework):是一套用于系统地规划、执行、监督和报告审计工作的结构化体系。它包括一系列的政策、程序、方法和标准,目的是确保审计过程的科学性、公正性和有效性。在传统审计领域,主要用于财务审计等方面,检查财务报表是否真实、准确地反映了企业的财务状况。
  3. 机器学习(Machine Learning):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。在数据挖掘、自然语言处理、图像识别等众多领域有广泛应用。

  4. ...

Read more

多类别指标


  1. 定义和背景
  2. 在多类别分类问题(如将图像分为多个不同的物体类别、文本分类到多个主题类别等)中,需要使用特定的评估指标来衡量模型的性能,这些指标被称为多类别指标(Multi - Class Metrics)。与二分类问题不同,多分类问题的评估更为复杂,因为涉及到多个类别之间的混淆情况。

  3. 常见的多类别指标

  4. 宏平均(Macro - averaging)
    • 计算方法:先分别计算每个类别的评估指标(如精确率、召回率、F1 - score),然后对这些类别指标求算术平均值。例如,对于一个三分类问题,类别为(A)、(B)、(C),分别计算出类别(A)的精确率(P_A)、类别(B)的精确率(P_B...

Read more

数据增强-


  1. 基本概念
  2. 数据增强(Data Augmentation)是一种在数据层面进行操作的技术,主要用于扩充数据集。在机器学习和深度学习的模型训练过程中,数据的数量和质量对模型的性能有着至关重要的影响。数据增强通过对原始数据进行一系列变换,生成新的、与原始数据相似的数据样本,从而增加数据的多样性和规模。

  3. 在计算机视觉中的应用

  4. 几何变换
    • 旋转(Rotation):将图像围绕一个中心点按照一定的角度进行旋转。例如,对于一个手写数字识别任务,把数字图像进行不同角度(如0 - 30度、30 - 60度等)的旋转,生成新的图像样本。这样可以让模型学会识别处于不同倾斜角度的数字,增强模型的鲁棒性。...

Read more

混淆矩阵-


  1. 定义
  2. 混淆矩阵(Confusion Matrix)是在机器学习和统计学的分类问题中,用于评估分类模型性能的一种工具。它是一个表格,展示了分类模型预测结果和实际真实标签之间的比较情况。
  3. 对于一个二分类问题,混淆矩阵是一个(2\times2)的矩阵,包含真正例(True Positive,TP)、假正例(False Positive,FP)、真反例(True Negative,TN)和假反例(False Negative,FN)这四个元素。例如,在判断一封邮件是否为垃圾邮件的任务中,如果模型正确地将垃圾邮件预测为垃圾邮件,这就是一个真正例;如果将正常邮件错误地预测为垃圾邮件,就是假正例。...

Read more

F1 - score-


  1. F1 - score的定义与意义
  2. F1 - score是精确率(Precision)和召回率(Recall)的调和平均数,用于综合评估分类模型的性能。在分类任务中,精确率和召回率往往存在一种权衡关系,单独使用其中一个指标可能无法全面衡量模型的好坏。F1 - score能够平衡这种权衡,提供一个更全面的评估指标。
  3. 其计算公式为(F1 = 2\times\frac{Precision\times Recall}{Precision + Recall})。例如,在信息检索任务中,精确率关注的是检索出的结果中有多少是真正相关的,召回率关注的是所有相关的内容中有多少被检索出来了。F1 - sc...

Read more

分类-监督学习


  1. 定义
  2. 在机器学习和数据挖掘等领域,分类(Classification)是一种监督学习(Supervised Learning)任务。它的目标是根据已知类别标签的训练数据构建一个模型,使得该模型能够对新的、未标记的数据进行类别预测。简单来说,就是将数据划分到不同的类别中。

  3. 常见的分类算法

  4. 决策树(Decision Tree)
    • 决策树是一种基于树结构的分类方法。它通过对特征进行一系列的测试来划分数据。例如,在一个判断水果是苹果还是橙子的分类问题中,决策树可能首先根据形状特征进行划分,如果形状是圆形,再根据颜色进一步划分。内部节点表示特征测试,分支表示测试的结果,叶节点表示类别。决策...

Read more

正则化-AI


正则化(Regularization)是一种在机器学习和统计学中用于防止过拟合的技术,通过向模型引入额外的信息或约束来提高模型在未见数据上的泛化能力。以下是几种常见的正则化方法:


1. L1 正则化(Lasso 回归)

  • 在损失函数中加入模型权重的绝对值之和作为惩罚项。
  • 公式:( \text{损失函数} + \lambda \sum_{i=1}^{n} |w_i| )
  • 特点:倾向于将一些权重压缩到零,从而实现特征选择,适合高维数据。

2. L2 正则化(岭回归)

  • 在损失函数中加入模型权重的平方和作为惩罚项。
  • 公式:( \text{损失函数} + \lambda \sum_{i=1...

Read more

函数的优良性


“Goodness of function”可直译为“函数的优良性”,在数学和相关领域中,它常涉及对函数性质和质量的评估考量。以下展开阐述: - 准确性与精确性:函数准确精确地反映变量关系至关重要。如在物理模型的数学函数表达里,牛顿第二定律公式精准描述力、质量与加速度关系,在实验与工程计算中,依此公式准确计算物体运动状态变化,误差极小,此为函数准确性与精确性佳的体现,是衡量函数优良性关键指标,关乎基于函数模型的可靠性及实际应用成效。 - 效率与复杂度平衡:高效且复杂度适宜的函数备受青睐。在算法设计中,搜索算法函数时间复杂度影响运行效率。二分搜索算法时间复杂度为 $O(log n)$,在大...

Read more