分类目录归档:人工智能

格式化提示format prompt-LLM


在生产环境下的大语言模型(LLM)中,“格式化提示(format prompt)”包含以下几个关键要点:

提示的清晰性与明确性

  • 清晰表述任务或问题:提示需要清楚地说明期望大语言模型去完成的任务或解答的问题。比如,不能只是模糊地说“给我讲讲某件事”,而应更具体地表述为“详细描述光合作用的过程”。
  • 避免歧义:要是想让大语言模型生成故事,就要明确指定故事的类型(例如“写一篇关于时空旅行的科幻短篇小说”)、篇幅长度(比如“写一篇500字的故事”)以及其他相关细节,像目标受众(例如“为中学生写一篇关于英雄冒险的故事”)等内容。

针对大语言模型的输入格式化

  • 遵循编码标准:在文本类大语言模型中,...

Read more

推理-提示体工程


在提示体工程(Prompt Engineering)中,“推理”(inferring)通常指的是根据给定的提示或上下文信息,模型自动推导出隐含的结论或答案。这与传统的基于规则的推理方法不同,提示体工程依赖于大语言模型(如GPT系列)从大量数据中学习的能力,通过对提示的理解和推断,生成合理的输出。

在提示体工程中的推理有以下几个方面:

  1. 上下文推理
  2. 模型基于给定的上下文和提示进行推理,理解隐含信息。例如,在对话系统中,模型可以根据先前的对话内容推测用户的意图,并作出合理回应。
  3. 例子:如果用户问“明天的天气怎么样?”,模型推理出用户是在询问某个地点的天气,可能需要根据地理信息推断出该地区...

Read more

长文本摘要总结-AI


大语言模型(LLM)在长文本摘要总结方面的应用通常包括对长文档的提取性总结和抽象性总结。以下是这两种方法的解释及其在LLM中的实现方式:

1. 提取性总结(Extractive Summarization)

  • 定义:提取性总结是从原始长文本中直接提取关键句子或段落,重新组织并形成简洁的总结。这种方法不改变原文的内容,而是选择最能代表原文的句子。
  • 过程
    • LLM通过识别文本中的重要信息来提取出关键词或关键句子。
    • 这些句子被直接用作总结的一部分,保留原文中的信息而不进行修改。
  • 优点
    • 保持原文的准确性。
    • 处理速度较快,因为只需从原文中提取内容。
  • 缺点
    • 可能导致不连贯的总结,因为提取...

Read more

LLM类型-AI


在大语言模型(LLM)领域,“Base LLM”和“Instruction-tuned LLM”指的是不同类型的模型版本,它们的训练方式和应用场景有所不同:

1. Base LLM (基础语言模型)

  • 定义:Base LLM是指未经特别调整的原始大语言模型,通常是通过大量文本数据进行训练的,目标是让模型理解和生成语言。这个模型已经学会了如何根据上下文生成语言,但它并没有经过特别的微调来执行特定的任务。
  • 特点
    • 训练方式:通过大规模的无监督学习训练,通常会使用大量的互联网文本数据。
    • 能力:能够生成通用的自然语言文本、回答问题、翻译语言等。
    • 用途:适用于各种自然语言处理任务,但在特定任务上的...

Read more

FAQ-提示词工程Prompt Engineering


要精通提示词工程,以下是你可以考虑提出的几个重要问题,这些问题将帮助你系统地理解和掌握提示词的设计与优化:

1. 基础概念和原则

  • 什么是提示词工程(Prompt Engineering)?它如何影响语言模型的输出?
  • 如何理解语言模型对提示的反应机制?它是如何生成回应的?
  • 什么样的提示能够确保模型生成高质量、精确的输出?

2. 提示设计的基本技巧

  • 如何创建简洁且高效的提示,以避免过于宽泛或模糊的回应?
  • 提示中需要包含哪些关键信息来确保模型理解并有效回应?
  • 如何在提示中控制输出的长度、风格和语气?
  • 如何通过实例来引导模型生成特定风格或格式的内容?

3. 复杂任务的提示设计

  • 对于复杂...

Read more

隐马尔可夫模型


隐马尔可夫模型(Hidden Markov Model,HMM) 是一种统计模型,用于描述一个由隐含的马尔可夫过程生成的可观测数据序列。HMM 是基于马尔可夫链的概念,但在标准马尔可夫模型中,状态是直接可观测的,而在 HMM 中,状态是隐含的(即不可见的),而我们只能通过某些观测(即可观测的输出)来推测当前的隐状态。


一、HMM 的基本组成部分

隐马尔可夫模型有三个主要部分:

  1. 状态空间(State Space)
  2. HMM 由一组隐状态组成,假设这个状态空间是有限的,且这些隐状态是不可观测的。
  3. 状态之间具有马尔可夫性质,即每个状态仅依赖于前一个状态,满足“无记忆”性质。

  4. 观测空间...

Read more

关键字-机器学习领域


以下是机器学习领域中的主要关键字分类及其简要解释,涵盖基础理论、算法、技术和应用领域等:


一、基础概念

  • 数据:训练集、验证集、测试集、特征、标签
  • 模型:参数、超参数、假设空间
  • 目标函数:损失函数(MSE、Cross-Entropy)、正则化项
  • 优化:梯度下降法、学习率、优化器

二、算法类型

1. 监督学习

  • 回归:线性回归、岭回归、LASSO
  • 分类:逻辑回归、支持向量机(SVM)、k-近邻(k-NN)
  • 树模型:决策树、随机森林、梯度提升树(GBDT、XGBoost、LightGBM、CatBoost)

2. 无监督学习

  • 聚类:k-Means、DBSCAN、层次聚类
  • 降维:主成...

Read more

梯度消失和梯度爆炸-问题解释


梯度消失和梯度爆炸是深度神经网络训练中常见的问题,尤其在较深的网络或循环神经网络(RNN)中表现明显。这些问题会导致模型难以收敛或出现不稳定性。以下是这两个问题的详解,包括其成因、影响及应对策略。


一、梯度消失问题

1. 问题描述

梯度消失是指在反向传播过程中,梯度逐层变小,最终接近于零。这使得靠近输入层的权重更新几乎停止,导致模型无法有效训练。

2. 成因

  • 激活函数的性质
  • Sigmoid 和 Tanh 激活函数在接近饱和区时(输入值绝对值较大),导数趋近于零。
  • 在反向传播中,梯度是通过链式法则逐层相乘的,若每层梯度小于 1,最终梯度会指数级衰减。

  • 网络深度

  • 网络越深,梯...

Read more

机器学习知识体系-AI


构建机器学习知识体系是理解和掌握机器学习的核心过程。以下是一个较为系统的知识体系框架,可以帮助你全面学习和应用机器学习。


一、基础知识

1. 数学基础

  • 线性代数
  • 矩阵、向量
  • 矩阵分解(SVD、PCA 等)
  • 特征值与特征向量

  • 概率与统计

  • 概率分布(正态分布、指数分布等)
  • 贝叶斯定理
  • 最大似然估计与贝叶斯估计

  • 微积分

  • 导数与梯度
  • 多元函数的偏导数
  • 梯度下降法

  • 优化理论

  • 凸优化
  • 拉格朗日乘子法

2. 编程基础

  • Python(推荐)、R、Julia 等
  • 数据处理库(Pandas、NumPy、SciPy)
  • 可视化工具(Matplotlib、Seaborn)

3. ...

Read more