分类目录归档：强化学习

GAWM-

509 views

GAWM (Global-Aware World Model) 是一种基于模型的多智能体强化学习（Model-based Multi-Agent Reinforcement Learning, MARL）方法，旨在解决复杂多智能体环境中的全局状态表示和样本效率问题。以下是关于 GAWM 的详细介绍：

1. 背景与挑战

在多智能体强化学习中，模型驱动的方法（Model-based MARL）通过构建环境动态模型来生成伪数据样本，从而提高样本效率。然而，现有的方法在全局状态表示上存在不足，尤其是在部分可观测环境中，无法保证数据样本的全局一致性。这导致生成的伪数据样本与真实样本之间存在分布不...

多智能体强化学习-MARL

501 views

多智能体强化学习（Multi-Agent Reinforcement Learning, MARL）是强化学习（Reinforcement Learning, RL）的一个分支，专注于多个智能体在共享环境中通过交互学习策略。与单智能体强化学习不同，MARL 需要考虑智能体之间的合作、竞争或混合关系，这使得问题更加复杂。

1. MARL 的核心问题

MARL 的核心挑战在于如何处理智能体之间的交互和环境的动态变化。以下是 MARL 中的一些关键问题：

非平稳性（Non-stationarity）：在单智能体 RL 中，环境通常是平稳的（即环境动态不随时间变化）。但在 MARL 中，其他...

人类反馈强化学习-RLHF

447 views

人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF）是一种将人类反馈融入强化学习过程的技术，它在提升人工智能系统的性能和行为方式上发挥着关键作用。

一、基本原理

强化学习基础
强化学习是机器学习中的一个领域，其中智能体（agent）在环境（environment）中采取一系列行动（action），目的是最大化累积奖励（reward）。智能体根据环境反馈的奖励信号来学习最优策略（policy），即决定在什么状态下采取什么行动。
例如，在训练一个机器人走迷宫的场景中，机器人（智能体）在迷宫（环境）中移动（行动），当它成功走出迷宫...

深度强化学习-交易领域

431 views

深度强化学习（Deep Reinforcement Learning, DRL）在算法交易领域受到了广泛关注，因为它能够在复杂和动态的环境中学习最优策略。以下是DRL在交易中的应用概述，包括关键概念、挑战以及实现DRL交易系统的步骤。

DRL在交易中的关键概念

强化学习（RL）基础：
RL涉及一个智能体与环境交互，以最大化累积奖励。
在交易中，智能体根据市场数据学习做出买入、卖出或持有的决策。
马尔可夫决策过程（MDP）：
交易环境被建模为MDP，包括：
- 状态（S）：市场数据（如价格、成交量、技术指标）。
- 动作（A）：交易决策（如买入、卖出、持有或仓位管理）。
- 奖励（R）...

强化学习-V2

482 views

强化学习：智能决策的“引擎”，解锁无限可能

开启强化学习的智慧之门

强化学习，英文名为 Reinforcement Learning，简称 RL，它宛如一位幕后的智能军师，默默引导着各类智能体在复杂多变的环境中做出最佳抉择。与传统的机器学习方法不同，强化学习并非依赖大量预先标注的数据进...

开启强化学习的智慧之门-V1

434 views

开启强化学习的智慧之门

在日常生活中，我们无时无刻不在做决策。想象一下，你清晨醒来，手机闹钟根据你前一晚的睡眠质量和今日日程，贴心地调整响铃时间；上班路上，导航软件实时规划避开拥堵的最优路线；甚至家中的智能扫地机器人，也能巧妙地穿梭于各个房间，高效完成清洁任务。这些看似平常的场景背后，其实都隐藏着一项强大的技术 —— 强化学习。强化学习，英文名为 Reinforcement Learning，简称 RL，它宛如一位幕后的智能军师，默默引导着各类智能体在复杂多变的环境中做出最佳抉择。与传统的机器学习方法不同，强化学习并非依赖大量预先标注的数据进行学习，而是通过智能体自主地与环境互动，在不...

强化学习概述-视频

462 views

强化学习（Reinforcement Learning，RL）是一种机器学习的方法，它通过让智能体（agent）在与环境的交互中学习如何进行决策，以最大化某种累积奖励（reward）。强化学习的核心思想是试错学习，即智能体通过不断尝试不同的动作（action），并根据环境给予的反馈（奖励或惩罚）来调整其行为策略，从而逐步学会在不同状态下选择最优的动作。

强化学习的基本概念

智能体（Agent）：在环境中执行动作并学习的实体。
环境（Environment）：智能体所处的外部世界，它定义了智能体可以感知的状态和可以执行的动作。
状态（State）：环境当前的情况，智能体通过状态来决定下一...

强化学习：智能决策的“幕后军师”-V3

405 views

一、强化学习初印象

（一）核心概念 “大起底” 为了更深入地理解强化学习，我们先来剖析一下它的几个核心概念。智能体（Agent），它就像是强化学习世界里的主角，是在环境中执行动作并学习的实体。在自动驾驶场景中，汽车就是智能体；在机器人控制领域，机器人便是智能体；而在超级玛丽游戏里，玛丽就是那个灵动的智能体。智能体的使命，便是依据环境所呈现的状态，明智地抉择下一步行动，从而达成某个特定目标。环境（Environment），即智能体所处的外部世界，它涵盖了智能体能够感知的状态以及可以执行的动作。环境既可以是现实世界中的物理场景，如城市道路、工厂车间；也可以是虚拟构建的数字空间，像电脑游戏...

关系网络

436 views

关系网络（Relation Network, RN） 是一种专门用于建模数据中对象或实体之间关系的神经网络架构。它特别适用于需要理解不同元素之间交互或依赖关系的任务，例如视觉推理、自然语言处理或图结构问题。

关系网络的核心概念：

成对关系建模：
关系网络计算对象之间的成对关系。例如，在一张图片中，它可以分析两个对象之间的关系（如“猫在垫子上”）。
组合性：
网络通过结合单个实体及其关系的信息来进行预测或决策，从而能够处理复杂的结构化数据。
模块化设计：
关系网络通常由两个主要组件组成：
- 特征提取模块：从单个对象中提取特征（例如，使用卷积神经网络（CNN）处理图像，或...

优先经验回放

447 views

定义与背景
Prioritized Replay（优先经验回放）是一种用于强化学习中经验回放（Experience Replay）的改进技术。在传统的经验回放中，从经验回放缓冲区（buffer）中抽取样本是随机的。然而，在实际学习过程中，不同的经验对于智能体学习的重要性是不同的。
Prioritized Replay的目的是根据经验的重要性来有优先级地抽取样本，使得更重要的经验能够被更频繁地用于训练，从而提高学习效率。
优先级的确定
一种常见的方法是根据经验的时间差分误差（Temporal - Difference Error，TD - error）来确定优先级。TD - er...

从零构建开源智能系统

构建专属智能系统，AI赋能加速成为领域专家。

GAWM-

1. 背景与挑战

多智能体强化学习-MARL

1. MARL 的核心问题

人类反馈强化学习-RLHF

深度强化学习-交易领域

DRL在交易中的关键概念

强化学习-V2

强化学习：智能决策的“引擎”，解锁无限可能

开启强化学习的智慧之门

开启强化学习的智慧之门-V1

强化学习概述-视频

强化学习的基本概念

强化学习：智能决策的“幕后军师”-V3

关系网络

关系网络的核心概念：

优先经验回放