分类目录归档:机器学习

Across-task training


Across-task training 是一种机器学习训练范式,旨在通过在多任务或多领域数据上进行训练,提升模型的泛化能力和适应性。与传统的单任务训练不同,across-task training 强调模型在多个相关或不相关任务之间的知识共享和迁移,从而提高模型在新任务或新环境中的表现。

以下是关于 across-task training 的详细解析:


1. 核心思想

  • 多任务学习(Multi-Task Learning, MTL):在多个任务上同时训练模型,共享部分参数,使模型能够学习到通用的特征表示。
  • 迁移学习(Transfer Learning):在一个任务上训练模型,然后将...

Read more

缩放点积


缩放点积(Scaled Dot Product Attention)是Transformer架构中的一个关键组件,下面从多个方面为你详细介绍它:

1. 基本概念

  • 在自然语言处理等领域,当处理序列数据时,需要对不同位置的元素之间的关联关系进行建模。缩放点积注意力机制就是用来衡量输入序列中不同位置的元素相互之间的关联程度有多强,以此确定在生成输出时各个元素应该被关注的程度。

2. 计算过程

  • 输入准备
    • 假设有三个输入张量,分别是查询(Query,通常用 (Q) 表示)、键(Key,通常用 (K) 表示)和值(Value,通常用 (V) 表示)。它们的维度一般是 (batch_size ...

Read more

后训练


后训练(Post-training)是指在模型完成初始训练(如预训练或任务特定训练)后,进一步优化或调整模型的过程。后训练的目标通常是提高模型的性能、适应性或效率,使其更好地满足实际应用的需求。后训练技术广泛应用于自然语言处理、计算机视觉和其他机器学习领域。

以下是后训练的关键技术、方法和应用场景:


1. 后训练的主要目标

  • 性能优化:提高模型的准确性、鲁棒性或泛化能力。
  • 适应性增强:使模型更好地适应特定任务、领域或环境。
  • 效率提升:减少模型的计算资源消耗或存储空间。
  • 安全性改进:增强模型的抗攻击能力或隐私保护能力。

2. 后训练的关键技术

(1)微调(Fine-tuning)

    ...

Read more

预训练


预训练(Pre-training)是机器学习和深度学习中的一种重要技术,指在大规模数据集上训练模型,使其学习通用的特征或知识,然后将这些知识迁移到特定任务中。预训练可以显著提高模型的性能,尤其是在数据量有限的情况下。

以下是预训练的详细解析及其应用:


1. 预训练的基本概念

  • 目标:通过在大规模数据集上训练模型,使其学习通用的特征或表示。
  • 迁移学习:将预训练模型的知识迁移到特定任务中,通常通过微调(Fine-tuning)实现。
  • 优势
  • 减少对任务特定数据的需求。
  • 提高模型的泛化能力。
  • 加速模型训练过程。

2. 预训练的常见方法

(1)监督预训练

  • 过程:在大规模标注数据集上训练模...

Read more

灾难性遗忘


一、定义

灾难性遗忘(Catastrophic Forgetting)是机器学习,特别是深度神经网络领域中的一个重要现象。当一个模型在顺序学习多个任务时,它在学习新任务的过程中往往会完全忘记之前学习过的任务,这种现象被称为灾难性遗忘。

二、产生原因

  1. 权重更新
  2. 在神经网络中,模型通过调整权重来学习新的知识。当学习新任务时,权重会被更新以最小化新任务的损失函数。然而,这种更新可能会覆盖之前任务中学习到的权重配置,导致对旧任务的遗忘。
  3. 例如,在一个简单的多层感知机(MLP)中,当从分类任务A转移到分类任务B时,反向传播算法会根据任务B的数据调整权重。如果没有特殊机制,这些权重调整可能会破坏在...

Read more

选择性突触可塑性


一、选择性突触可塑性在机器学习(ML)中的应用背景

  1. 生物启发计算
  2. 大脑的学习和记忆机制一直是计算机科学和人工智能领域的重要灵感来源。选择性突触可塑性作为大脑中神经元连接强度动态调整的关键机制,为机器学习算法提供了一种仿生的思路。
  3. 传统的机器学习算法往往基于固定的模型结构和参数更新规则,而大脑中的突触可塑性展示了一种自适应、动态的学习过程,能够根据环境和任务的变化灵活调整。

二、基于选择性突触可塑性的机器学习模型

  1. 脉冲神经网络(Spiking Neural Networks,SNNs)
  2. 模型原理
    • SNNs是一种受生物神经元活动启发的神经网络。在SNNs中,神经元通过脉冲(spikes...

Read more

一文读懂机器学习之决策树


一文读懂机器学习之决策树

决策树:机器学习中的智慧“决策官”

在机器学习的广袤天地中,决策树宛如一位智慧的“决策官”,占据着举足轻重的地位。它以其独特的树形结构和直观的决策逻辑,成为了众多数据科学家和从业者手中的得力工具,无论是在数据分类、预测分析,还是在规则提取等方面,都展现出了强大的能力和广泛的应用前景,让我们一同揭开它神秘的面纱。

一、揭开决策树的神秘面纱

(一)决策树的概念

决策树是一种基于树形结构的监督学习方法,它模拟了人类在做决策时的思维过程。对于给定的数据集,决策树通过对数据特征的一系列判断来进行分类或回归预测。例如,在判断一个水果是苹果还是橙子时,可能会先根据颜色特征进行...

Read more

神经网络剪枝


神经网络剪枝是一种模型压缩技术,旨在通过移除网络中不重要的参数或结构来减少模型的大小和计算复杂度,同时尽量保持模型的性能。以下是关于神经网络剪枝的详细信息:

剪枝的原理

剪枝的基本原理是识别并移除神经网络中对模型性能贡献较小的权重或神经元。这样可以在不显著影响模型准确性的前提下,减少模型的存储需求和计算量,从而提高推理速度和降低能耗。

剪枝的类型

  • 非结构化剪枝:移除单个权重或神经元,可能导致稀疏矩阵,需要特定硬件支持。
  • 结构化剪枝:移除整个卷积核、神经元或通道,保持模型结构的规整性,便于硬件加速。

剪枝的流程

  1. 模型预训练:使用标准训练算法训练模型。
  2. 模型剪枝:根据参数重要性评估结果...

Read more

ML的三个步骤


这张图片展示了机器学习(Machine Learning)的三个步骤: 1. Step 1: function with unknown(第一步:定义未知函数) - 这一步是机器学习的开始,通常涉及到确定一个需要通过数据来学习的未知函数。这个函数可能是一个预测模型,例如线性回归、逻辑回归等。 2. Step 2: define loss from training data(第二步:从训练数据中定义损失) - 在这一步,需要从训练数据中定义一个损失函数。损失函数用于衡量模型预测值与真实值之间的差异。常见的损失函数有均方误差(MSE)、交叉熵(Cross - Entropy)等...

Read more

预训练文本模型


Pre-trained text model即预训练文本模型,是一种在大规模文本数据上进行无监督学习得到的语言模型,以下是关于它的详细介绍:

基础概念

  • 定义:预训练文本模型是基于大量无标注文本数据进行预训练的深度学习模型,通过学习语言的统计规律、语法结构和语义表示,为各种自然语言处理任务提供强大的基础.
  • 训练方式:预训练模型的训练过程通常分为两个阶段,即预训练和微调。在预训练阶段,模型使用大量的无标签文本数据,通过自监督学习的方式进行训练,学习语言的一般特征和模式 。预训练完成后,模型可以通过微调适应特定的下游任务,即在具体任务的标注数据上对预训练模型进行有监督学习,通过对模型参数进行...

Read more