作者文章归档：course

技术报告

322 views

一个完整的技术报告通常需要结构清晰、内容详实，能够准确传达技术信息、分析过程和结论。以下是技术报告的常见结构和各部分的内容说明：

1. 标题页（Title Page）

报告标题：简洁明了，反映报告的核心内容。
作者信息：包括作者姓名、单位、联系方式。
日期：报告完成的日期。
版本号（如适用）：如果报告会更新，标注版本号。

2. 摘要（Abstract）

内容：简要概述报告的目的、方法、主要发现和结论。
字数：通常控制在 150-300 字之间。
作用：让读者快速了解报告的核心内容。

3. 目录（Table of Contents）

内容：列出报告的章节标题及对应的页码。

DeepSeek-V3技术报告

353 views

以下是DeepSeek-V3技术报告的详细内容：

项目概述

DeepSeek-V3是由杭州深度求索人工智能基础技术研究有限公司开发的一款大规模稀疏专家混合（MoE）模型，拥有高达6710亿个参数，其中每个token激活37亿个参数。它在14.8万亿token上进行了预训练，采用了先进的架构和训练方法，通过精细划分问题空间来优化处理能力。

技术特点

架构创新：DeepSeek-V3采用了多头潜在注意力（MLA）架构，通过低秩联合压缩机制，减少推理过程中的Key-Value缓存需求，提高了推理效率，同时保持性能不下降。此外，它还引入了无辅助损失的负载均衡策略，采用动态调整路由偏置的方式，解...

前馈神经网络

402 views

前馈神经网络（Feedforward Neural Network）是一种人工神经网络，其中节点之间的连接不形成循环。这与循环神经网络（RNN）不同，RNN中的数据可以循环流动。前馈网络是最简单的神经网络形式，广泛应用于模式识别、分类和回归等任务中。

主要特点：

单向数据流：信息只能单向流动——从输入层经过隐藏层（如果有）到输出层。网络中没有循环或回路。
层级结构：
输入层：接收初始数据。
隐藏层：中间层，对输入数据进行变换。网络可以有零个或多个隐藏层。
输出层：生成最终输出。
激活函数：每个神经元通常会对输入应用激活函数，然后再传递给下一层。常见的激活函数包括Sigmoid、Tanh...

位置嵌入

337 views

位置嵌入（Position Embeddings）是Transformer模型中至关重要的组件，用于为模型提供序列中每个词的位置信息。以下是对其作用和实现方式的详细解释：

作用：
提供顺序信息：Transformer模型基于自注意力机制，不直接处理序列的顺序。位置嵌入为模型提供了词在句子中的位置信息，确保模型能够理解词的顺序，从而正确捕捉语义和语法关系。
区别于RNN：与RNN通过隐藏状态传递顺序信息不同，Transformer通过位置嵌入在输入阶段就加入了位置信息，允许并行处理整个序列。
实现方式：
可学习的位置嵌入：如BERT中使用，每个位置对应一个可训练的向量，这些向量在...

GPT架构

398 views

GPT（Generative Pre-trained Transformer）是一种由OpenAI开发的深度学习架构，主要用于自然语言处理（NLP）任务。GPT架构基于Transformer模型，该模型在2017年提出，最初用于机器翻译任务，但后来被广泛应用于各种NLP任务中。

GPT架构的主要特点：

Transformer架构：
GPT基于Transformer模型，该模型完全基于注意力机制，而不使用循环神经网络（RNN）或卷积神经网络（CNN）。Transformer模型由编码器（Encoder）和解码器（Decoder）组成，但在GPT中，主要使用解码器部分。
Transfor...

强化学习-V2

476 views

强化学习：智能决策的“引擎”，解锁无限可能

开启强化学习的智慧之门

强化学习，英文名为 Reinforcement Learning，简称 RL，它宛如一位幕后的智能军师，默默引导着各类智能体在复杂多变的环境中做出最佳抉择。与传统的机器学习方法不同，强化学习并非依赖大量预先标注的数据进...

开启强化学习的智慧之门-V1

427 views

开启强化学习的智慧之门

在日常生活中，我们无时无刻不在做决策。想象一下，你清晨醒来，手机闹钟根据你前一晚的睡眠质量和今日日程，贴心地调整响铃时间；上班路上，导航软件实时规划避开拥堵的最优路线；甚至家中的智能扫地机器人，也能巧妙地穿梭于各个房间，高效完成清洁任务。这些看似平常的场景背后，其实都隐藏着一项强大的技术 —— 强化学习。强化学习，英文名为 Reinforcement Learning，简称 RL，它宛如一位幕后的智能军师，默默引导着各类智能体在复杂多变的环境中做出最佳抉择。与传统的机器学习方法不同，强化学习并非依赖大量预先标注的数据进行学习，而是通过智能体自主地与环境互动，在不...

强化学习概述-视频

456 views

强化学习（Reinforcement Learning，RL）是一种机器学习的方法，它通过让智能体（agent）在与环境的交互中学习如何进行决策，以最大化某种累积奖励（reward）。强化学习的核心思想是试错学习，即智能体通过不断尝试不同的动作（action），并根据环境给予的反馈（奖励或惩罚）来调整其行为策略，从而逐步学会在不同状态下选择最优的动作。

强化学习的基本概念

智能体（Agent）：在环境中执行动作并学习的实体。
环境（Environment）：智能体所处的外部世界，它定义了智能体可以感知的状态和可以执行的动作。
状态（State）：环境当前的情况，智能体通过状态来决定下一...

BERT预训练过程

306 views

BERT（Bidirectional Encoder Representations from Transformers）的预训练过程是其能够在众多自然语言处理任务中取得优异性能的关键。主要包括以下两个阶段：

1. 无监督预训练阶段

数据准备
- BERT使用大规模的文本语料进行预训练。这些语料来源广泛，例如维基百科、书籍、新闻文章等。在将文本输入模型之前，会对文本进行预处理，包括分词（将文本分割成单词或子词单元）。例如，对于英文文本，会使用WordPiece等分词方法，像“playing”可能会被分为“play”和“##ing”。
- 同时，会构建输入格式，通常是将两个句子拼接在一起，中...

强化学习：智能决策的“幕后军师”-V3

399 views

一、强化学习初印象

（一）核心概念 “大起底” 为了更深入地理解强化学习，我们先来剖析一下它的几个核心概念。智能体（Agent），它就像是强化学习世界里的主角，是在环境中执行动作并学习的实体。在自动驾驶场景中，汽车就是智能体；在机器人控制领域，机器人便是智能体；而在超级玛丽游戏里，玛丽就是那个灵动的智能体。智能体的使命，便是依据环境所呈现的状态，明智地抉择下一步行动，从而达成某个特定目标。环境（Environment），即智能体所处的外部世界，它涵盖了智能体能够感知的状态以及可以执行的动作。环境既可以是现实世界中的物理场景，如城市道路、工厂车间；也可以是虚拟构建的数字空间，像电脑游戏...

从零构建开源智能系统

构建专属智能系统，AI赋能加速成为领域专家。

技术报告

1. 标题页（Title Page）

2. 摘要（Abstract）

3. 目录（Table of Contents）

DeepSeek-V3技术报告

项目概述

技术特点

前馈神经网络

主要特点：

位置嵌入

GPT架构

GPT架构的主要特点：

强化学习-V2

强化学习：智能决策的“引擎”，解锁无限可能

开启强化学习的智慧之门

开启强化学习的智慧之门-V1

强化学习概述-视频

强化学习的基本概念

BERT预训练过程

强化学习：智能决策的“幕后军师”-V3