分类目录归档:基础设施

BERT-预训练语言模型


BERT(Bidirectional Encoder Representations from Transformers)是一种在自然语言处理领域具有重大影响力的预训练语言模型。

一、BERT 的基本架构和特点 - 双向 Transformer 架构:BERT 采用双向 Transformer 架构,能够同时考虑文本的左右上下文信息,从而更好地理解语言的语义。Transformer 架构由编码器和解码器组成,BERT 只使用了编码器部分。编码器由多个相同的层堆叠而成,每个层包含两个子层:多头自注意力机制和前馈神经网络。这种架构使得 BERT 能够有效地捕捉文本中的长距离依赖关系和复杂的语...

Read more

关系网络


关系网络(Relation Network, RN) 是一种专门用于建模数据中对象或实体之间关系的神经网络架构。它特别适用于需要理解不同元素之间交互或依赖关系的任务,例如视觉推理、自然语言处理或图结构问题。

关系网络的核心概念:

  1. 成对关系建模
  2. 关系网络计算对象之间的成对关系。例如,在一张图片中,它可以分析两个对象之间的关系(如“猫在垫子上”)。

  3. 组合性

  4. 网络通过结合单个实体及其关系的信息来进行预测或决策,从而能够处理复杂的结构化数据。

  5. 模块化设计

  6. 关系网络通常由两个主要组件组成:

    • 特征提取模块:从单个对象中提取特征(例如,使用卷积神经网络(CNN)处理图像,或...

Read more

BloombergGPT


BloombergGPT 是彭博社(Bloomberg)开发的一个专门针对金融领域的大型语言模型(LLM),旨在支持金融行业的自然语言处理(NLP)任务。以下是关于 BloombergGPT 的详细介绍:


1. 模型概述

  • 参数规模:BloombergGPT 是一个拥有 500 亿参数 的自回归语言模型,基于 BLOOM 模型的自回归结构,包含 70 层 Transformer 解码器。
  • 训练数据:模型使用了 7000 亿个 token 的训练语料库,其中 3630 亿个 token 来自金融领域数据集(FinPile),3450 亿个 token 来自通用数据集(如 The Pile...

Read more

近端策略优化


近端策略优化(Proximal Policy Optimization,PPO)是一种流行的强化学习算法,它在实现简单性、样本效率和性能之间取得了良好的平衡。PPO 是一种在线策略(on-policy)算法,意味着它通过当前策略与环境的交互来学习。PPO 是对信任域策略优化(Trust Region Policy Optimization, TRPO)的改进,广泛应用于研究和实际场景中。

以下是 PPO 的核心思想及其关键组成部分:


PPO 的核心概念

  1. 策略优化
  2. PPO 优化的是一个随机策略 (\pi_\theta(a|s)),它根据当前状态 (s) 输出动作 (a) 的概率分布。...

Read more

微调大语言模型


微调大语言模型(LLMs)是指在预训练模型的基础上,进一步在特定数据集上进行训练,以适应特定任务或领域的过程。通过微调,模型可以利用预训练阶段学到的通用语言理解能力,并将其应用于更具体的任务中。以下是微调的概述、优势以及需要注意的事项:


为什么要微调LLMs?

  1. 任务特定化:预训练的LLMs是通用的,但微调可以让它们在特定任务(如情感分析、摘要生成或问答)上表现更好。
  2. 领域专业化:在特定领域数据(如医学、法律或金融文本)上微调,可以提高模型在这些领域的表现。
  3. 性能提升:微调可以显著提高模型在目标任务上的准确性、相关性和连贯性。
  4. 定制化:根据需求调整模型的输出风格、语气或行为。

微调...

Read more

监督学习-概述


监督学习是一种机器学习方法,通过使用带标签的数据来训练模型,使其能够学习输入与标签之间的关系,并对新的数据进行预测。以下是对其详细的理解和总结:

  1. 基本概念

  2. 训练数据:包含输入特征和对应的正确输出(标签)。

  3. 标签来源:通常由人工标注,例如在图像分类任务中,每张图片需标注类别(猫、狗、鸟等)。

  4. 模型训练过程

  5. 通过调整模型参数,使预测结果接近实际标签。

  6. 使用损失函数衡量预测值与真实值的差距,并用优化算法(如梯度下降)调整参数,以最小化损失。

  7. 常见算法

  8. 线性回归:适用于回归问题,预测连续值。

  9. 逻辑回归:用于二分类问题,尽管名称中有“回归”但实际上是分类算法...

Read more

Reptile 元学习算法


"Reptile AI" 通常指的是 OpenAI 提出的 Reptile 元学习算法,这是一种用于快速适应新任务的元学习方法。以下是关于 Reptile AI 的详细解释和相关内容:


1. Reptile 算法的核心思想

Reptile 是一种基于梯度的元学习算法,旨在通过训练模型在多个任务上的表现,使其能够快速适应新的、未见过的任务。它的核心思想是通过简单的随机梯度下降(SGD)更新模型的初始化参数,从而在新任务上实现快速收敛。

  • 与 MAML 的对比:Reptile 类似于 MAML(Model-Agnostic Meta-Learning),但更简单且计算效率更高。MAML 需...

Read more

逻辑回归-V2


逻辑回归(Logistic Regression)是一种用于二分类问题的统计方法,其目标是预测给定输入属于某一类别的概率。逻辑回归的损失函数(也称为成本函数)被称为对数损失(Log Loss)或交叉熵损失(Cross-Entropy Loss)。它通过惩罚错误的预测来衡量分类模型的性能。


逻辑回归的假设函数

逻辑回归的假设函数使用 Sigmoid 函数 表示:

[ h_\theta(x) = \frac{1}{1 + e^{-\theta^T x}} ]

其中: - ( h_\theta(x) ) 是模型预测的 ( y = 1 ) 的概率。 - ( \theta ) 是模型参数(权重)...

Read more

AI原理系列-监督学习概述-V1


监督学习的基本概念

监督学习(Supervised Learning)是机器学习中最常见的一种学习方式。它的核心思想是通过已知的输入和输出数据(即“标签”)来训练模型,使得模型能够从输入数据中预测出正确的输出。监督学习的目标是找到一个函数,能够将输入映射到输出。

1. 基本流程

监督学习的基本流程包括以下几个步骤:

  1. 数据收集:收集带有标签的数据集,数据集中的每个样本都包含输入特征和对应的输出标签。
  2. 数据预处理:对数据进行清洗、归一化、特征选择等操作,以便更好地训练模型。
  3. 模型选择:根据问题的性质选择合适的模型,如线性回归、决策树、支持向量机、神经网络等。
  4. 模型训练:使用训练数据集来训练...

Read more

云厂商列表-


以下是基于搜索结果整理的中国主要云服务提供商列表,涵盖综合型云厂商、通信运营商云服务商以及其他独立云厂商。这些提供商在公有云、私有云和混合云领域均有布局,并服务于不同行业和场景。


中国主要云服务提供商列表

1. 综合型云厂商

  1. 阿里云(Alibaba Cloud)
  2. 成立时间:2009年
  3. 特点:中国公有云市场第一,全球第三大云服务商,提供IaaS、PaaS和SaaS服务。

  4. 腾讯云(Tencent Cloud)

  5. 成立时间:2013年
  6. 特点:游戏、视频云垂直领域领先,提供全链条云服务。

  7. 华为云(Huawei Cloud)

  8. 成立时间:2005年
  9. 特点:...

Read more