CodeFuse-DevOps-Model-开源的中文开发运维大模型


CodeFuse-DevOps-Model是一系列开源的中文开发运维大模型,主要用于解决DevOps领域的问题,提供了模型下载、评测、快速使用、训练及量化等相关内容。 1. 模型概述 - 模型研发:基于Qwen系列模型,使用高质量中文DevOps语料加训得到Base模型,再经DevOps QA数据对齐产出Chat模型。 - 模型下载:提供了7B和14B的基座模型(Base)和对齐模型(Chat),可从🤗Huggingface和🤖ModelScope获取,部分量化模型即将推出。 2. 模型评测 - 评测数据选取:在CMMLU和CEval评测数据集中选取与DevOps相关的六项考试,共574道选择题。 - 评测结果:7B和14B系列模型在Zero-shot和Five-shot测试中取得较好成绩,相比其他同类模型表现更优。 3. 快速使用 - 安装依赖:通过pip install -r requirements.txt安装所需依赖。 - 推理示例:展示了如何使用🤗Transformers进行Chat模型推理,包括加载模型、设置参数、进行多轮对话等操作。 4. 模型训练 - 数据准备:支持多种数据读取方式,推荐使用jsonl格式,需更新data/dataset_info.json文件,参考data/README.md。 - 预训练:执行scripts/devops-model-pt.sh脚本,使用src/train_bash.py进行预训练,可调整相关参数,如数据集、模板、训练类型、输出路径等,通过python src/train_bash.py -h获取完整参数列表。 - 指令微调:执行scripts/devops-model-sft.sh脚本,同样使用src/train_bash.py进行指令微调,参数设置与预训练类似,但需注意部分参数(如template固定为chatml),也可通过python src/train_bash.py -h获取更多参数信息。 5. 模型量化:提供了量化模型,也可使用示例代码对自己加训的模型进行量化,包括加载模型、设置量化参数、执行量化并保存量化后的模型。