开源大模型是指其源代码和架构对公众开放,可自由使用、修改和分发的大型语言模型。以下是一些比较知名的开源大模型:
Tülu 3 405B 发布背景:由美国西雅图的非营利研究机构艾伦人工智能研究所(Ai2)于2025年1月发布。该模型基于Meta的llama-3.1-405B,拥有4050亿参数。 训练方法:采用精心策划的数据选择和合成,通过监督微调(SFT)等方法提升性能。此外,还使用了强化学习与可验证奖励(RLVR)框架,使模型在数学推理等任务上表现出色。 性能表现:与DeepSeek v3和OpenAI的GPT-4o相当,甚至在某些关键领域超越了它们。
DeepSeek 系列 Deep...