self-llm-开源大模型食用指南

这个仓库名为 self-llm，是一个围绕开源大模型、针对国内初学者、基于 Linux 平台的大模型教程项目。以下是对该仓库的详细介绍：

项目概述

本项目旨在为更多普通学生、研究者提供开源大模型的全流程指导，简化开源大模型的部署、使用和应用流程，让开源、自由的大模型更好地融入普通学习者的生活。其主要内容涵盖环境配置、本地部署、高效微调等技能的教学。

项目主要内容

开源 LLM 环境配置指南：基于 Linux 平台，针对不同模型要求提供详细的环境配置步骤。
主流开源 LLM 部署使用教程：包括国内外主流的开源 LLM，如 LLaMA、ChatGLM、InternLM 等。
开源 LLM 部署应用指导：涉及命令行调用、在线 Demo 部署、LangChain 框架集成等方面。
开源 LLM 微调方法：包含全量微调、高效微调方法，如分布式全量微调、LoRA、ptuning 等。

项目意义

在当前“百模大战”的背景下，开源 LLM 层出不穷，但普通学生和用户使用这些大模型需要一定的技术能力。本项目基于核心贡献者的经验，实现主流开源 LLM 的部署、使用与微调教程，并希望汇聚共创者，丰富开源 LLM 的教程内容，成为 LLM 与普罗大众之间的桥梁。

项目受众

想要使用或体验 LLM，但无条件获得或使用相关 API 的学习者。
希望长期、低成本、大量应用 LLM 的用户。
对开源 LLM 感兴趣，想要亲自上手实践的人员。
正在学习 NLP，希望进一步学习 LLM 的学生。
希望结合开源 LLM，打造领域特色私域 LLM 的开发者。
广大普通学生群体。

项目规划及进展

Example 系列

Chat - 嬛嬛：利用《甄嬛传》剧本中甄嬛的台词和语句，基于 LLM 进行 LoRA 微调得到的模仿甄嬛语气的聊天语言模型。
Tianji - 天机：基于人情世故社交场景，涵盖提示词工程、智能体制作、数据获取与模型微调、RAG 数据清洗与使用等全流程的大语言模型系统应用教程。
AMChat：集成了数学知识和高等数学习题及其解答的大语言模型，使用特定数据集基于 InternLM2 - Math - 7B 模型通过 xtuner 微调，用于解答高等数学问题。
数字生命：以特定人为原型，利用特制数据集对大语言模型进行微调，创造能够反映个性特征的 AI 数字人，亮点在于数据集的制作。

已支持模型

包含多种国内外主流开源模型，如 MiniCPM 4.0、Qwen3、Kimi、Llama4、SpatialLM、Yuan2.0 - 2B、Yuan2.0 - M32、DeepSeek - Coder - V2、哔哩哔哩 Index - 1.9B、Qwen2、InternLM2 - 7B - chat、DeepSeek 深度求索、Hunyuan3D - 2、Gemma3 等，并针对每个模型提供了不同方面的教程，如模型结构解析、部署调用、微调、可视化记录等。

通用环境配置

换源：提供 pip、conda 换源教程。
端口开放：介绍 AutoDL 开放端口的方法。
模型下载：涵盖 hugging face、modelscope、git - lfs、Openxlab 等不同渠道的模型下载方法。
Issue && PR：包括 Issue 提交、PR 提交和 fork 更新的相关教程。

学习建议

建议初学者先学习环境配置，再学习模型的部署使用，最后学习微调。同时，项目还推荐了一些进阶学习的开源项目，如 Happy - LLM 从零开始的大语言模型原理与实践教程、Tiny - Universe、so - large - llm 和动手学大模型应用开发等，帮助学习者更深入地理解和应用大语言模型。

Github

从零构建开源智能系统

构建专属智能系统，AI赋能加速成为领域专家。