CodeFuse-DevOps-Model是一系列开源的中文开发运维大模型,主要用于解决DevOps领域的问题,提供了模型下载、评测、快速使用、训练及量化等相关内容。
1. 模型概述
- 模型研发:基于Qwen系列模型,使用高质量中文DevOps语料加训得到Base模型,再经DevOps QA数据对齐产出Chat模型。
- 模型下载:提供了7B和14B的基座模型(Base)和对齐模型(Chat),可从🤗Huggingface和🤖ModelScope获取,部分量化模型即将推出。
2. 模型评测
- 评测数据选取:在CMMLU和CEval评测数据集中选取与DevOps相关的六项考试,共574道选择题。
- 评测结果:7B和14B系列模型在Zero-shot和Five-shot测试中取得较好成绩,相比其他同类模型表现更优。
3. 快速使用
- 安装依赖:通过pip install -r requirements.txt
安装所需依赖。
- 推理示例:展示了如何使用🤗Transformers进行Chat模型推理,包括加载模型、设置参数、进行多轮对话等操作。
4. 模型训练
- 数据准备:支持多种数据读取方式,推荐使用jsonl格式,需更新data/dataset_info.json
文件,参考data/README.md
。
- 预训练:执行scripts/devops-model-pt.sh
脚本,使用src/train_bash.py
进行预训练,可调整相关参数,如数据集、模板、训练类型、输出路径等,通过python src/train_bash.py -h
获取完整参数列表。
- 指令微调:执行scripts/devops-model-sft.sh
脚本,同样使用src/train_bash.py
进行指令微调,参数设置与预训练类似,但需注意部分参数(如template固定为chatml),也可通过python src/train_bash.py -h
获取更多参数信息。
5. 模型量化:提供了量化模型,也可使用示例代码对自己加训的模型进行量化,包括加载模型、设置量化参数、执行量化并保存量化后的模型。
CodeFuse-DevOps-Model-开源的中文开发运维大模型
评论
36 views