分类目录归档：人工智能

Double DQN-深度Q网络

414 views

定义与背景
Double DQN（深度Q网络）是对传统Q - Learning算法的一种改进。在传统的DQN中，由于Q值的估计和更新都基于同一个网络，可能会导致Q值被过度高估，从而产生次优的策略。Double DQN通过解耦动作选择和动作评估的过程，有效地缓解了这个问题。
算法原理
在传统DQN中，Q值的更新公式为：
- $y_j = r_j+\gamma\max_{a'}Q_{\theta}(s_{j + 1},a';\theta)$，其中$Q_{\theta}(s,a;\theta)$是由参数为$\theta$的神经网络来估计的Q值函数，$r_j$是即时奖励，$\gamma$是折扣因子...

Dueling DQN

361 views

定义与核心思想
Dueling DQN是DQN的另一种改进架构。它的核心思想是将Q - 值函数拆分为状态价值函数（Value function）和优势函数（Advantage function）。状态价值函数$V(s)$表示在状态$s$下的价值，而优势函数$A(s,a)$表示在状态$s$下采取动作$a$相对于其他动作的优势。
其Q - 值函数可以表示为：$Q(s,a)=V(s)+A(s,a)-\frac{1}{|A|}\sum_{a'}A(s,a')$，其中$|A|$是动作空间的大小。这样的分解使得网络能够更独立地学习状态的价值和动作相对于其他动作的优势。
网络架构
Dueling D...

Q - Learning

385 views

一、定义

Q - Learning是一种基于价值（value - based）的强化学习算法。它的主要目标是学习一个动作 - 价值函数（action - value function），通常用$Q(s,a)$表示。这个函数用于估计在状态$s$下采取动作$a$后可能获得的累积奖励。

在强化学习的环境中，智能体（agent）与环境（environment）进行交互。智能体在环境的每个状态下选择一个动作，环境根据智能体的动作反馈一个奖励信号（reward），并且使智能体转移到下一个状态。Q - Learning算法就是通过不断地这种交互来学习最优的策略（policy），即让智能体知道在每个状态...

TRPO

387 views

基本原理
目标函数与优化策略
- TRPO（Trust Region Policy Optimization）的主要目标是在保证策略更新安全的前提下，最大化累计奖励。它基于策略梯度方法，和PPO一样也是优化策略网络。在强化学习中，智能体在环境中行动，环境反馈奖励信号。TRPO试图通过更新策略网络的参数$\theta$来改善策略$\pi_{\theta}$，使得长期累积奖励$J(\theta)=\mathbb{E}{\pi}[\sum_{t = 0}^{\infty}\gamma^{t}r_{t}]$最大化，其中$\gamma$是折扣因子（$0 < \gamma< 1$），用于衡...

PPO-

403 views

在强化学习中的PPO（Proximal Policy Optimization）算法细节
优化目标
- PPO的目标是优化策略网络以最大化累计奖励。在强化学习中，智能体与环境进行交互，在每个时间步$t$，智能体根据当前策略$\pi_{\theta}(a_t|s_t)$（其中$\theta$是策略网络的参数，$a_t$是采取的动作，$s_t$是环境状态）选择一个动作。PPO试图找到最优的$\theta$使得长期累积奖励$J(\theta)=\mathbb{E}{\pi}[\sum_{t = 0}^{\infty}\gamma^{t}r_{t}]$最大化，这里$\gamma$是折扣因子（$0&...

AI知识体系概述

402 views

AI（人工智能）知识体系包含多个重要方面：

一、机器学习（Machine Learning）

定义
机器学习是多领域交叉学科，涉及概率论、统计学等多门学科，它研究计算机如何模拟人类学习行为，获取新知识和技能，优化自身性能。
类型
监督学习（Supervised Learning）
- 有标记好的训练数据集，例如图像分类任务中图像有类别标签。模型学习输入特征和输出标签的关系，算法有决策树、支持向量机、多层感知机（分类）、线性回归（数值预测）等。
无监督学习（Unsupervised Learning）
- 训练数据无标签，如聚类任务中模型根据数据相似性划分簇。常见算法有K...

神经网络剪枝

319 views

神经网络剪枝是一种模型压缩技术，旨在通过移除网络中不重要的参数或结构来减少模型的大小和计算复杂度，同时尽量保持模型的性能。以下是关于神经网络剪枝的详细信息：

剪枝的原理

剪枝的基本原理是识别并移除神经网络中对模型性能贡献较小的权重或神经元。这样可以在不显著影响模型准确性的前提下，减少模型的存储需求和计算量，从而提高推理速度和降低能耗。

剪枝的类型

非结构化剪枝：移除单个权重或神经元，可能导致稀疏矩阵，需要特定硬件支持。
结构化剪枝：移除整个卷积核、神经元或通道，保持模型结构的规整性，便于硬件加速。

剪枝的流程

模型预训练：使用标准训练算法训练模型。
模型剪枝：根据参数重要性评估结果...

人工智能的关键概念解析

376 views

人工智能的关键概念解析

人工智能（Artificial Intelligence，简称AI）是当今最具革命性和变革性的技术之一，它涉及多个领域的交叉和融合。本篇文章围绕人工智能的100个关键概念展开，涵盖了基础理论、模型、算法、应用场景和技术细节。

机器学习与深度学习

机器学习

机器学习是人工智能的核心分支，其目标是通过数据驱动的方法，使计算机能够自动改进性能。机器学习的核心概念包括： - 特征工程：通过技术手段提取能反映数据特性的信息。 - 标签：监督学习中用于指导模型训练的真实值。 - 训练集、测试集、验证集：分别用于模型训练、性能评估和超参数调整。 - 过拟合与欠拟合：过拟合指模型...

AI知识体系关键字

307 views

以下是一篇关于 AI 知识体系关键字的详细文章。# AI 知识体系关键 365 字深度解析：开启智能世界大门

一、基础概念（1 - 100）

人工智能（Artificial Intelligence）：旨在赋予机器模拟、延伸和扩展人类智能的能力，涵盖学习、推理、感知、理解、决策等多方面智能行为，是一门综合性的学科领域，驱动着众多技术的发展与应用，为各行业的变革提供核心动力，从智能助手到复杂的工业自动化系统，其影响力无处不在。
机器学习（Machine Learning）：作为人工智能的关键分支，使机器能够通过数据自动学习模式和规律，而非依赖于明确的编程指令。它基于统计学和数学理论，构建...

AI知识体系中的365个关键字

360 views

以下是一份按照重要程度大致列出的AI知识体系中的365个关键字：

一、基础概念（1 - 100）

人工智能
机器学习
深度学习
神经网络
算法
数据挖掘
数据分析
大数据
特征工程
标签
训练集
测试集
验证集
过拟合
欠拟合
模型评估
准确率
召回率
F1值
均方误差（MSE）
交叉验证
超参数
参数调整
向量
矩阵
张量
激活函数
Sigmoid函数
ReLU函数
Tanh函数
损失函数
对数损失
交叉熵损失
优化算法
随机梯度下降（SGD）
Adagrad
Adadelta
Adam
正则化
L1正则化
L2正则化
Dropout
批归一化（Batch Normalization...

从零构建开源智能系统

构建专属智能系统，AI赋能加速成为领域专家。

Double DQN-深度Q网络

Dueling DQN

Q - Learning

TRPO

PPO-

AI知识体系概述

一、机器学习（Machine Learning）

神经网络剪枝

剪枝的原理

剪枝的类型

剪枝的流程

人工智能的关键概念解析

人工智能的关键概念解析

机器学习与深度学习

机器学习

AI知识体系关键字

一、基础概念（1 - 100）

AI知识体系中的365个关键字