分类目录归档:个人成长

RLHF:开启人工智能与人类价值对齐新时代


RLHF 是什么?

RLHF,全称 Reinforcement Learning from Human Feedback,即人类反馈强化学习 ,是一种基于人类提供的反馈来训练模型,实现学习强化和模型性能提升的机器学习方法,被视为强化学习(RL)的一种变体,也是一种人机协作的范式。简单来说,它的核心就是把人类的主观判断融入到机器学习的优化目标当中,让 AI 模型的行为与人类的价值观、偏好和期望对齐。

在 RLHF 出现之前,传统的强化学习依赖于预先定义好的奖励函数来指导模型学习,但奖励函数的设计往往充满挑战,因为它很难全面且准确地反映人类的复杂需求和价值观。例如,在训练一个对话机器人时,很...

Read more

大模型推理加速“神器”:KV Cache 深度揭秘


KV Cache 是什么

在当今人工智能飞速发展的时代,大语言模型(LLM)已成为自然语言处理领域的核心技术。其中,Transformer 架构凭借其强大的并行计算能力和对长序列数据的处理能力,成为了大语言模型的基础架构。而 KV Cache(键值缓存)作为 Transformer 架构中优化大语言模型推理性能的关键技术,尤其是在自回归生成任务中,发挥着举足轻重的作用。简单来说,KV Cache 是一种用于存储键值对数据的缓存机制,它的核心作用是在大语言模型的推理过程中,通过缓存注意力机制中的 Key 和 Value 矩阵,避免重复计算历史 token 的中间结果,从而显著提升推理效率。...

Read more