OpenAI O3是OpenAI于2024年12月20日发布的下一代推理模型 。以下是关于它的详细介绍:
研发背景
- 模型迭代需求:作为o1推理模型的下一代,旨在进一步提升模型在推理等方面的能力,解决现有模型存在的一些问题,如scaling law收益递减、预训练数据短缺等。
- 避免商标冲突:为避免与英国电信运营商o2发生版权或商标冲突,OpenAI选择跳过o2并直接将新模型命名为o3 。
性能特点
- 推理能力卓越:在科学、编码、数学等多个领域展现出强大的推理能力。在软件工程考试(swe-bench verified)中成绩达到71.7%,在全球著名编码竞赛平台codeforces上得分2727 。
- 数学推理突破:在评估人工智能高级数学推理能力的frontiermath基准测试中,o3准确率达到25.2%,而此前gpt-4和gemini 1.5 pro等模型成功率不足2%。
- 抽象推理出色:在arc-agi测试中,高配版o3得分为87.5%,低计算设置下o3得分为75.7%,远高于之前的模型。
应用方向
- 科学研究辅助:可协助科学家进行复杂的科学研究,如理论推导、数据分析等,帮助科研人员更快地理解和解决问题。
- 高级编程支持:为软件工程师提供更强大的编程辅助,能够生成高质量的代码,解决复杂的编程问题,提高编程效率。
- 智能决策支持:在需要复杂推理和决策的领域,如金融风险评估、医疗诊断等,为专业人员提供更准确的信息和建议,辅助决策制定。
局限性
- 计算成本高:高计算模式下每个任务成本高达数千美元,即使是低计算模式也需要20美元左右。
- 实际应用待验证:目前o3还处于内部测试和向安全研究人员开放申请预览的阶段,尚未广泛应用于实际场景,其在实际使用中的效果和稳定性有待进一步验证。
- 仍存在不足:o3在一些非常简单的任务上仍然存在失败的情况,与人类智能存在根本差异。
发展计划
- 开放测试:目前OpenAI只对红队(安全研究人员)开放o3模型的申请试用。
- 推出小尺寸模型:较小版本的o3-mini预计将于2025年1月底推出,随后将推出完整版o3 。