分类目录归档:人工智能

AI三要素


AI 三要素是人工智能(Artificial Intelligence)发展的核心基础,包括 数据算法算力。这三者相互依赖,共同推动 AI 技术的进步和应用。以下是它们的详细说明:


1. 数据(Data)

  • 定义:数据是 AI 的“燃料”,是模型训练和学习的基础。
  • 重要性
    • 数据的质量、数量和多样性直接影响 AI 模型的性能。
    • 数据用于训练模型、验证模型和测试模型。
  • 类型
    • 结构化数据(如表格数据)。
    • 非结构化数据(如文本、图像、音频、视频)。
  • 挑战
    • 数据收集和标注的成本高。
    • 数据隐私和安全问题。
    • 数据偏差可能导致模型偏见。

2. 算法(Algorithm)

...

Read more

灾难性遗忘


一、定义

灾难性遗忘(Catastrophic Forgetting)是机器学习,特别是深度神经网络领域中的一个重要现象。当一个模型在顺序学习多个任务时,它在学习新任务的过程中往往会完全忘记之前学习过的任务,这种现象被称为灾难性遗忘。

二、产生原因

  1. 权重更新
  2. 在神经网络中,模型通过调整权重来学习新的知识。当学习新任务时,权重会被更新以最小化新任务的损失函数。然而,这种更新可能会覆盖之前任务中学习到的权重配置,导致对旧任务的遗忘。
  3. 例如,在一个简单的多层感知机(MLP)中,当从分类任务A转移到分类任务B时,反向传播算法会根据任务B的数据调整权重。如果没有特殊机制,这些权重调整可能会破坏在...

Read more

选择性突触可塑性


一、选择性突触可塑性在机器学习(ML)中的应用背景

  1. 生物启发计算
  2. 大脑的学习和记忆机制一直是计算机科学和人工智能领域的重要灵感来源。选择性突触可塑性作为大脑中神经元连接强度动态调整的关键机制,为机器学习算法提供了一种仿生的思路。
  3. 传统的机器学习算法往往基于固定的模型结构和参数更新规则,而大脑中的突触可塑性展示了一种自适应、动态的学习过程,能够根据环境和任务的变化灵活调整。

二、基于选择性突触可塑性的机器学习模型

  1. 脉冲神经网络(Spiking Neural Networks,SNNs)
  2. 模型原理
    • SNNs是一种受生物神经元活动启发的神经网络。在SNNs中,神经元通过脉冲(spikes...

Read more

一文读懂机器学习之决策树


一文读懂机器学习之决策树

决策树:机器学习中的智慧“决策官”

在机器学习的广袤天地中,决策树宛如一位智慧的“决策官”,占据着举足轻重的地位。它以其独特的树形结构和直观的决策逻辑,成为了众多数据科学家和从业者手中的得力工具,无论是在数据分类、预测分析,还是在规则提取等方面,都展现出了强大的能力和广泛的应用前景,让我们一同揭开它神秘的面纱。

一、揭开决策树的神秘面纱

(一)决策树的概念

决策树是一种基于树形结构的监督学习方法,它模拟了人类在做决策时的思维过程。对于给定的数据集,决策树通过对数据特征的一系列判断来进行分类或回归预测。例如,在判断一个水果是苹果还是橙子时,可能会先根据颜色特征进行...

Read more

如何训练一个模型?-V2


模型训练:开启智能世界的钥匙

在当今这个科技飞速发展的时代,模型已然成为众多领域的核心驱动力,宛如一颗璀璨的明珠,散发着耀眼的光芒。从智能手机中的语音助手,能精准理解我们的指令并迅速给出回应,到电商平台凭借个性化推荐模型,为我们贴心推送心仪的商品;从医疗影像借助智能诊断模型,助力医生更精准地识别疾病,再到自动驾驶汽车依靠复杂的感知与决策模型,自如穿梭于城市的大街小巷。模型的身影无处不在,它以惊人的智慧和高效的执行力,深度融入并重塑着我们的生活、工作与学习模式,让一切变得更加便捷、智能。 而这一切令人惊叹的智能应用背后,模型训练则是那座坚实且不可或缺的基石。训练有素的模型宛如一位知识渊博、...

Read more

优先经验回放


  1. 定义与背景
  2. Prioritized Replay(优先经验回放)是一种用于强化学习中经验回放(Experience Replay)的改进技术。在传统的经验回放中,从经验回放缓冲区(buffer)中抽取样本是随机的。然而,在实际学习过程中,不同的经验对于智能体学习的重要性是不同的。
  3. Prioritized Replay的目的是根据经验的重要性来有优先级地抽取样本,使得更重要的经验能够被更频繁地用于训练,从而提高学习效率。

  4. 优先级的确定

  5. 一种常见的方法是根据经验的时间差分误差(Temporal - Difference Error,TD - error)来确定优先级。TD - er...

Read more

Double DQN-深度Q网络


  1. 定义与背景
  2. Double DQN(深度Q网络)是对传统Q - Learning算法的一种改进。在传统的DQN中,由于Q值的估计和更新都基于同一个网络,可能会导致Q值被过度高估,从而产生次优的策略。Double DQN通过解耦动作选择和动作评估的过程,有效地缓解了这个问题。
  3. 算法原理
  4. 在传统DQN中,Q值的更新公式为:
    • $y_j = r_j+\gamma\max_{a'}Q_{\theta}(s_{j + 1},a';\theta)$,其中$Q_{\theta}(s,a;\theta)$是由参数为$\theta$的神经网络来估计的Q值函数,$r_j$是即时奖励,$\gamma$是折扣因子...

Read more

Dueling DQN


  1. 定义与核心思想
  2. Dueling DQN是DQN的另一种改进架构。它的核心思想是将Q - 值函数拆分为状态价值函数(Value function)和优势函数(Advantage function)。状态价值函数$V(s)$表示在状态$s$下的价值,而优势函数$A(s,a)$表示在状态$s$下采取动作$a$相对于其他动作的优势。
  3. 其Q - 值函数可以表示为:$Q(s,a)=V(s)+A(s,a)-\frac{1}{|A|}\sum_{a'}A(s,a')$,其中$|A|$是动作空间的大小。这样的分解使得网络能够更独立地学习状态的价值和动作相对于其他动作的优势。
  4. 网络架构
  5. Dueling D...

Read more

Q - Learning


一、定义

Q - Learning是一种基于价值(value - based)的强化学习算法。它的主要目标是学习一个动作 - 价值函数(action - value function),通常用$Q(s,a)$表示。这个函数用于估计在状态$s$下采取动作$a$后可能获得的累积奖励。

在强化学习的环境中,智能体(agent)与环境(environment)进行交互。智能体在环境的每个状态下选择一个动作,环境根据智能体的动作反馈一个奖励信号(reward),并且使智能体转移到下一个状态。Q - Learning算法就是通过不断地这种交互来学习最优的策略(policy),即让智能体知道在每个状态...

Read more

TRPO


  1. 基本原理
  2. 目标函数与优化策略
    • TRPO(Trust Region Policy Optimization)的主要目标是在保证策略更新安全的前提下,最大化累计奖励。它基于策略梯度方法,和PPO一样也是优化策略网络。在强化学习中,智能体在环境中行动,环境反馈奖励信号。TRPO试图通过更新策略网络的参数$\theta$来改善策略$\pi_{\theta}$,使得长期累积奖励$J(\theta)=\mathbb{E}{\pi}[\sum_{t = 0}^{\infty}\gamma^{t}r_{t}]$最大化,其中$\gamma$是折扣因子($0 < \gamma< 1$),用于衡...

Read more