Awesome-Domain-LLM-收集和梳理垂直领域的开源模型、数据集及评测基准


文档主要介绍了Awesome Domain LLM项目,该项目旨在收集和梳理垂直领域的开源模型、数据集及评测基准,推动大模型在各行各业的应用。 1. 模型分类 - 通用模型:整理了常用的开源通用模型,如LLaMA2、ChatGLM3 - 6B、Qwen、Baichuan2、InternLM等,包括模型大小、所属机构和相关论文。 - 领域模型 - 医疗领域:包含ChiMed - GPT、AlpaCare、Taiyi、MentalLLaMA、WiNGPT2等众多模型,分别介绍了其基于的基础模型、训练方式、功能特点等,部分模型还开源了相关数据集。 - 法律领域:有DISC - LawLLM、LawGPT_zh、LaWGPT、LexiLaw等模型,涵盖了模型开发机构、训练数据来源、功能及特点等信息,部分模型还涉及评测基准相关内容。 - 金融领域:包括Tongyi - Finance - 14B、DISC - FinLLM、InvestLM、FinGLM等模型,介绍了模型针对金融领域的优化方式、功能特点及相关数据集或评测基准。 - 教育领域:如桃李、EduChat等模型,说明了其在教育领域的应用场景和训练数据来源。 - 其他领域:涉及DevOps - Model、OWL、MarineGPT、OceanGPT、AgriGPT等多个领域的模型,介绍了模型的研发机构、功能特点等。 2. 数据集:未详细展开介绍,仅提及项目旨在收集垂直领域的数据集,但文档中未具体罗列相关数据集内容。 3. 评测基准 - 中文基础模型评测基准:如C - Eval、AGIEval、Xiezhi、CMMLU、MMCU、CG - Eval等,涵盖了多种学科和能力方向的测试内容,部分基准包含大量题目,且具有不同的特点和适用范围。 - 领域特定评测基准 - 医疗领域:有CBLUE、PromptCBLUE、LAiW等,针对医疗语言理解、医疗场景NLP任务、法律大模型在医疗领域的应用能力等方面进行评测。 - 法律领域:包括LawBench、LegalBench、LEXTREME、LexGLUE等,分别面向中国和美国法律体系,以及多语言环境下的法律推理和英文法律评测。 - 金融领域:如CFBenchmark、FinanceBench、FinEval、FLARE、CFLEB、FLUE等,从金融文本处理、开放式金融问题问答、金融知识评测等多个角度进行评估。 - 运维领域:OWL - Bench面向运维领域,包含多种题型,覆盖众多现实工业场景。 - DevOps领域:DevOps - Eval是面向DevOps领域的大语言模型评测基准。

Awesome-Domain-LLM