分类目录归档:基础设施

策略网络-RL


在强化学习(Reinforcement Learning, RL)中,策略网络(Policy Network)是直接输出智能体(Agent)动作策略的神经网络模型,是策略梯度(Policy Gradient)类算法(如REINFORCE、PPO、TRPO等)的核心组件。其核心作用是将环境状态映射到动作的概率分布(或确定性动作),指导智能体在不同状态下做出决策。

策略网络的核心特点

  1. 输入:通常是环境的状态(State),可以是图像(如像素矩阵)、数值向量(如机器人关节角度)等。
  2. 输出
  3. 对于离散动作空间:输出各动作的概率分布(通过Softmax激活函数),例如动作空间为3时,输出...

Read more

时间差分学习-RL


时间差分学习(Temporal Difference Learning, TD Learning)是强化学习(Reinforcement Learning, RL)中的核心方法之一,它巧妙结合了动态规划(Dynamic Programming, DP)和蒙特卡洛(Monte Carlo, MC)方法的优点,能够在无需完全知晓环境模型的情况下,通过采样交互数据在线更新值函数。以下从核心概念、算法原理、优势对比及应用场景等方面展开概述:

一、TD学习的核心思想

  1. 自举(Bootstrapping)与采样的结合
  2. 自举:利用当前已有的值函数估计来更新其他状态的值(类似DP,基于后续状态的估计...

Read more

TimesFM-时间序列预测-03001


以下是关于谷歌时间序列预测基础模型 TimesFM 的详细介绍,基于搜索结果的综合分析:


1. 模型概述

TimesFM 是谷歌研发的专为时间序列预测设计的 仅解码器(decoder-only)基础模型,参数规模为 2亿(200M),在包含 1000亿个真实世界时间点 的多样化数据集上预训练而成。其核心目标是通过大规模预训练实现 零样本(zero-shot)预测,即在无需微调的情况下直接应用于新任务,性能媲美甚至超越传统监督学习方法。


2. 核心架构与创新

架构设计

  • 分块(Patch)处理:将时间序列分割为连续的非重叠块(如32个时间点为一个输入块),每个块通过残差块转换为向量,并...

Read more

git config pull -命令


这三条 git config 命令用于设置 git pull 操作的合并策略,下面为你详细解释:

1. git config pull.rebase false

此命令会把 git pull 的默认行为设定为合并(merge)模式。当你执行 git pull 时,它会先从远程仓库拉取最新的提交,接着将本地的提交与远程的提交进行合并,从而创建一个新的合并提交。

示例:

git config pull.rebase false

在这个模式下,git pull 相当于依次执行了 git fetchgit merge 这两个命令。这种方式的优点是能清晰记录合并的历史,不过可能会使提交历...

Read more

redis命令


Redis 命令-runoob

要连接Redis并查询已缓存的数据,可以通过Redis客户端(如redis-cli)执行相关命令,步骤如下:

一、连接Redis服务器

通常使用官方客户端redis-cli连接,语法如下:

# 连接本地默认配置的Redis(主机localhost,端口6379,无密码)
redis-cli

# 连接远程Redis(指定主机、端口)
redis-cli -h 主机地址 -p 端口号

# 若Redis设置了密码,连接后需认证(推荐方式,避免密码暴露在命令行)
redis-cli -h 主机地址 -p 端口号
# 连接后执行认证命令
AUTH 你的密码

#...

Read more

docker-aktools


本地构造镜像及使用

可以通过 Dockerfile 文件进行本地镜像的构造,通过下载仓库中:https://github.com/akfamily/aktools/blob/main/Dockerfile 文件到本地后,

通过 docker build -t aktools:v1 . 命令来构建镜像,

并通过 docker run -p 8080:8080 aktools:v1 来启动镜像,

如需要后台运行则通过 docker run -d -p 8080:8080 aktools:v1 来进行启动。

最后通过访问 http://127.0.0.1:8080/api/public/sto...

Read more