分类目录归档：基础设施

BERT-预训练语言模型

57 views

BERT（Bidirectional Encoder Representations from Transformers）是一种在自然语言处理领域具有重大影响力的预训练语言模型。

一、BERT 的基本架构和特点 - 双向 Transformer 架构：BERT 采用双向 Transformer 架构，能够同时考虑文本的左右上下文信息，从而更好地理解语言的语义。Transformer 架构由编码器和解码器组成，BERT 只使用了编码器部分。编码器由多个相同的层堆叠而成，每个层包含两个子层：多头自注意力机制和前馈神经网络。这种架构使得 BERT 能够有效地捕捉文本中的长距离依赖关系和复杂的语...

关系网络

69 views

关系网络（Relation Network, RN） 是一种专门用于建模数据中对象或实体之间关系的神经网络架构。它特别适用于需要理解不同元素之间交互或依赖关系的任务，例如视觉推理、自然语言处理或图结构问题。

关系网络的核心概念：

成对关系建模：
关系网络计算对象之间的成对关系。例如，在一张图片中，它可以分析两个对象之间的关系（如“猫在垫子上”）。
组合性：
网络通过结合单个实体及其关系的信息来进行预测或决策，从而能够处理复杂的结构化数据。
模块化设计：
关系网络通常由两个主要组件组成：
- 特征提取模块：从单个对象中提取特征（例如，使用卷积神经网络（CNN）处理图像，或...

BloombergGPT

96 views

BloombergGPT 是彭博社（Bloomberg）开发的一个专门针对金融领域的大型语言模型（LLM），旨在支持金融行业的自然语言处理（NLP）任务。以下是关于 BloombergGPT 的详细介绍：

1. 模型概述

参数规模：BloombergGPT 是一个拥有 500 亿参数 的自回归语言模型，基于 BLOOM 模型的自回归结构，包含 70 层 Transformer 解码器。
训练数据：模型使用了 7000 亿个 token 的训练语料库，其中 3630 亿个 token 来自金融领域数据集（FinPile），3450 亿个 token 来自通用数据集（如 The Pile...

近端策略优化

68 views

近端策略优化（Proximal Policy Optimization，PPO）是一种流行的强化学习算法，它在实现简单性、样本效率和性能之间取得了良好的平衡。PPO 是一种在线策略（on-policy）算法，意味着它通过当前策略与环境的交互来学习。PPO 是对信任域策略优化（Trust Region Policy Optimization, TRPO）的改进，广泛应用于研究和实际场景中。

以下是 PPO 的核心思想及其关键组成部分：

PPO 的核心概念

策略优化：
PPO 优化的是一个随机策略 (\pi_\theta(a|s))，它根据当前状态 (s) 输出动作 (a) 的概率分布。...

微调大语言模型

73 views

微调大语言模型（LLMs）是指在预训练模型的基础上，进一步在特定数据集上进行训练，以适应特定任务或领域的过程。通过微调，模型可以利用预训练阶段学到的通用语言理解能力，并将其应用于更具体的任务中。以下是微调的概述、优势以及需要注意的事项：

为什么要微调LLMs？

任务特定化：预训练的LLMs是通用的，但微调可以让它们在特定任务（如情感分析、摘要生成或问答）上表现更好。
领域专业化：在特定领域数据（如医学、法律或金融文本）上微调，可以提高模型在这些领域的表现。
性能提升：微调可以显著提高模型在目标任务上的准确性、相关性和连贯性。
定制化：根据需求调整模型的输出风格、语气或行为。

微调...

监督学习-概述

57 views

监督学习是一种机器学习方法，通过使用带标签的数据来训练模型，使其能够学习输入与标签之间的关系，并对新的数据进行预测。以下是对其详细的理解和总结：

基本概念：
训练数据：包含输入特征和对应的正确输出（标签）。
标签来源：通常由人工标注，例如在图像分类任务中，每张图片需标注类别（猫、狗、鸟等）。
模型训练过程：
通过调整模型参数，使预测结果接近实际标签。
使用损失函数衡量预测值与真实值的差距，并用优化算法（如梯度下降）调整参数，以最小化损失。
常见算法：
线性回归：适用于回归问题，预测连续值。
逻辑回归：用于二分类问题，尽管名称中有“回归”但实际上是分类算法...

Reptile 元学习算法

89 views

"Reptile AI" 通常指的是 OpenAI 提出的 Reptile 元学习算法，这是一种用于快速适应新任务的元学习方法。以下是关于 Reptile AI 的详细解释和相关内容：

1. Reptile 算法的核心思想

Reptile 是一种基于梯度的元学习算法，旨在通过训练模型在多个任务上的表现，使其能够快速适应新的、未见过的任务。它的核心思想是通过简单的随机梯度下降（SGD）更新模型的初始化参数，从而在新任务上实现快速收敛。

与 MAML 的对比：Reptile 类似于 MAML（Model-Agnostic Meta-Learning），但更简单且计算效率更高。MAML 需...

逻辑回归-V2

73 views

逻辑回归（Logistic Regression）是一种用于二分类问题的统计方法，其目标是预测给定输入属于某一类别的概率。逻辑回归的损失函数（也称为成本函数）被称为对数损失（Log Loss）或交叉熵损失（Cross-Entropy Loss）。它通过惩罚错误的预测来衡量分类模型的性能。

逻辑回归的假设函数

逻辑回归的假设函数使用 Sigmoid 函数 表示：

[ h_\theta(x) = \frac{1}{1 + e^{-\theta^T x}} ]

其中： - ( h_\theta(x) ) 是模型预测的 ( y = 1 ) 的概率。 - ( \theta ) 是模型参数（权重）...

AI原理系列-监督学习概述-V1

59 views

监督学习的基本概念

监督学习（Supervised Learning）是机器学习中最常见的一种学习方式。它的核心思想是通过已知的输入和输出数据（即“标签”）来训练模型，使得模型能够从输入数据中预测出正确的输出。监督学习的目标是找到一个函数，能够将输入映射到输出。

1. 基本流程

监督学习的基本流程包括以下几个步骤：

数据收集：收集带有标签的数据集，数据集中的每个样本都包含输入特征和对应的输出标签。
数据预处理：对数据进行清洗、归一化、特征选择等操作，以便更好地训练模型。
模型选择：根据问题的性质选择合适的模型，如线性回归、决策树、支持向量机、神经网络等。
模型训练：使用训练数据集来训练...

云厂商列表-

65 views

以下是基于搜索结果整理的中国主要云服务提供商列表，涵盖综合型云厂商、通信运营商云服务商以及其他独立云厂商。这些提供商在公有云、私有云和混合云领域均有布局，并服务于不同行业和场景。

中国主要云服务提供商列表

1. 综合型云厂商

阿里云（Alibaba Cloud）
成立时间：2009年
特点：中国公有云市场第一，全球第三大云服务商，提供IaaS、PaaS和SaaS服务。
腾讯云（Tencent Cloud）
成立时间：2013年
特点：游戏、视频云垂直领域领先，提供全链条云服务。
华为云（Huawei Cloud）
成立时间：2005年
特点：...

从零构建开源智能系统

构建专属智能系统，AI赋能加速成为领域专家。