强化学习-知识体系-mermaid-graph TD -V 0.0.1


graph TD A[强化学习知识体系] --> B[基础概念] A --> C[算法分类] A --> D[模型构建] A --> E[应用领域] A --> F[评估指标]

B --> B1[强化学习定义]
B --> B2[智能体(Agent)]
B --> B3[环境(Environment)]
B --> B4[状态(State)]
B --> B5[动作(Action)]
B --> B6[奖励(Reward)]
B --> B7[策略(Policy)]
B --> B8[价值函数(Value Function)]
B --> B9[马尔可夫决策过程(MDP)]
B --> B10[贝尔曼方程(Bellman Equation)]

C --> C1[基于策略梯度的算法]
C --> C2[基于价值迭代的算法]
C --> C3[深度Q网络(DQN)及其扩展]
C --> C4[Actor-Critic算法]
C --> C5[无模型强化学习算法]
C --> C6[基于模型的强化学习算法]

C1 --> C11[REINFORCE算法]
C1 --> C12[近端策略优化算法(PPO)]
C1 --> C13[信赖域策略优化算法(TRPO)]

C2 --> C21[价值迭代算法]
C2 --> C22[策略迭代算法]

C3 --> C31[DQN算法原理]
C3 --> C32[双Q网络(DDQN)]
C3 --> C33[优先经验回放DQN(PER-DQN)]
C3 --> C34[对决网络结构(Dueling DQN)]

C4 --> C41[异步优势Actor-Critic(A3C)]
C4 --> C42[深度确定性策略梯度算法(DDPG)]
C4 --> C43[软 Actor-Critic算法(SAC)]

D --> D1[状态表示]
D --> D2[策略网络设计]
D --> D3[价值网络设计]
D --> D4[经验回放池设计]
D --> D5[探索与利用平衡策略]

D1 --> D11[离散状态表示]
D1 --> D12[连续状态表示]
D1 --> D13[特征工程在状态表示中的应用]

D2 --> D21[全连接神经网络策略网络]
D2 --> D22[卷积神经网络策略网络]
D2 --> D23[循环神经网络策略网络]

D3 --> D31[基于全连接网络的价值网络]
D3 --> D32[基于卷积网络的价值网络]
D3 --> D33[基于注意力机制的价值网络]

D4 --> D41[固定大小经验回放池]
D4 --> D42[优先经验回放池原理与实现]

D5 --> D51[ε-贪婪策略]
D5 --> D52[玻尔兹曼探索策略]

E --> E1[机器人控制]
E --> E2[游戏AI]
E --> E3[自动驾驶]
E --> E4[资源管理]
E --> E5[推荐系统]

E1 --> E11[机器人路径规划]
E1 --> E12[机器人操作控制]

E2 --> E21[棋类游戏AI]
E2 --> E22[电子竞技游戏AI]

E3 --> E31[自动驾驶决策系统]
E3 --> E32[自适应巡航控制]

E4 --> E41[云计算资源分配]
E4 --> E42[网络带宽管理]

E5 --> E51[基于强化学习的推荐算法原理]
E5 --> E52[推荐系统中的多臂老虎机问题]

F --> F1[累计奖励(Cumulative Reward)]
F --> F2[平均奖励(Average Reward)]
F --> F3[学习曲线(Learning Curve)]
F --> F4[策略评估指标]
F --> F5[泛化能力评估]

F4 --> F41[策略价值(Policy Value)]
F4 --> F42[策略熵(Policy Entropy)]