LLaMA-Factory-一站式大模型统一微调框架


LLaMA-Factory 完整介绍

一、基础定义

LLaMA-Factory(简称LLaMA Factory) 是北航团队开源、GitHub万星级一站式大模型统一微调框架,核心目标:零代码/低代码完成百种开源LLM、多模态模型全流程训练、对齐、推理、导出部署,大幅降低大模型定制门槛。 开源地址:https://github.com/hiyouga/LLaMA-Factory 配套中文文档:https://llamafactory.readthedocs.io/zh-cn/latest/

二、核心优势

  1. 超全模型兼容(100+主流模型) 国产:Qwen通义千问、ChatGLM、Baichuan百川、Yi、DeepSeek、InternLM 海外:LLaMA2/3、Mistral、Mixtral MoE、Gemma、Phi、Falcon 多模态:LLaVA、CogVLM等图文模型,统一一套流程训练

  2. 完整训练全链路(覆盖模型生命周期)

    • 增量预训练 Pretrain
    • 监督微调 SFT(指令微调,最常用)
    • 人类偏好对齐:DPO、ORPO、KTO、PPO(RLHF)、奖励模型RM
    • 模型评估、对话测试、LoRA合并、量化导出、vLLM高性能推理
  3. 极低显存消耗,消费级显卡可用 支持多种轻量化微调方案:

    • LoRA / DoRA / LongLoRA / PiSSA
    • QLoRA 2/3/4/6/8bit量化微调,7B模型4G显存即可微调
    • GaLore、LoftQ等前沿高效微调算法 精度可选:FP16/BF16全参数微调、冻结微调
  4. 双操作模式,兼顾新手与专业

    • WebUI(LlamaBoard):零代码可视化,浏览器点选即可训练、对话、调参
    • CLI命令行/YAML配置:适合批量任务、服务器、自动化脚本
  5. 极致加速与监控 注意力加速:FlashAttention-2、Unsloth 推理后端:原生支持Transformers、vLLM 实验记录:TensorBoard、Wandb、SwanLab、MLflow多平台日志

三、架构三大核心模块

  1. Model Loader 模型加载器 内置模型注册表,自动匹配对话模板、LoRA目标层、RoPE缩放,无需手动适配每个模型。
  2. Data Worker 数据流水线 内置Alpaca、ShareGPT、对话、多模态数据集模板;支持自定义JSON数据集,自动分词、截断、打包。
  3. Trainer 统一训练器 一套代码切换SFT/DPO/PPO等所有训练阶段,支持单卡、多卡DDP分布式训练。

四、快速上手(极简流程)

1. 安装两种方式

方式1:pip极简安装

pip install llamafactory
# 启动可视化界面
llamafactory-cli webui
# 访问 http://127.0.0.1:7860

方式2:源码完整安装(推荐,功能最全)

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics,vllm]"

2. 典型SFT LoRA微调命令(命令行)

llamafactory-cli train \
--stage sft \
--model_name_or_path Qwen/Qwen2.5-7B-Instruct \
--finetuning_type lora \
--template qwen \
--dataset alpaca_zh_demo \
--lora_rank 8 \
--learning_rate 5e-5 \
--output_dir saves/qwen7b-lora

3. 训练后操作

  • 在线对话测试:llamafactory-cli chat
  • LoRA合并到原模型:llamafactory-cli export
  • 启动vLLM推理API:llamafactory-cli api

五、适用场景

  1. 个人玩家:本地消费显卡微调专属聊天/写作模型
  2. 企业业务:垂直领域定制(客服、知识库、代码、法律、医疗)
  3. 科研人员:快速复现DPO/ORPO等对齐算法,对比不同微调策略
  4. 多模态开发:图文理解、图文问答模型微调
  5. 部署落地:一键导出HuggingFace、Ollama、GGUF量化格式

六、常见区分:LLaMA-Factory vs 同类工具

框架 优势 短板
LLaMA-Factory 模型最全、对齐算法最全、WebUI零代码、国内模型适配完善 依赖较多,初次安装环境配置略繁琐
Axolotl 轻量化、速度快 对齐方法少,国产模型支持一般
Swift 阿里出品,云平台适配好 界面复杂,多模态支持弱于LF

七、常见问题

  1. 显存不足:切换--finetuning_type qlora --bits 4 4bit量化微调
  2. 国内下载模型慢:使用ModelScope本地下载模型,填入本地路径加载
  3. 自定义数据集:按照data/alpaca_zh.json格式编写,在dataset_info.json注册数据集名称