揭秘 gpt-oss:推动开放权重推理的边界

OpenAI 宣布在 AI 领域取得重大进展,发布了 gpt-oss-120bgpt-oss-20b。这些新的开放权重语言模型代表了向前迈出的一大步,提供了最先进的性能、卓越的效率和强大的安全功能,所有这些都在宽松的 Apache 2.0 许可证下可用。

开放的力量:性能与效率

gpt-oss-120bgpt-oss-20b 旨在民主化对强大 AI 能力的访问。gpt-oss-120b 模型在核心推理基准测试中显示出与 OpenAI 的 o4-mini 近乎相当的性能,并且可以在单个 80GB GPU 上高效运行。对于优先考虑设备部署或资源受限环境的开发者和研究人员,gpt-oss-20b 模型提供了与 o3-mini 相当的性能,可以在仅有 16GB 内存的设备上运行。

这些模型在以下各种任务中表现出色:

  • 推理能力 - 在复杂推理挑战中超越类似规模的开放模型
  • 工具使用 - 在函数调用和与外部工具集成方面展现出强大能力
  • 效率优化 - 针对从消费级 GPU 到边缘设备的广泛硬件部署进行优化
  • 上下文处理 - 支持高达 128k tokens 的上下文长度

技术支柱:架构与训练

基于 Transformer 架构构建,这些模型利用专家混合(Mixture-of-Experts,MoE)的力量来高效管理其参数。gpt-oss-120b 模型拥有 1170 亿总参数,每个 token 有 51 亿活跃参数,包含 128 个专家,每个 token 有 4 个活跃专家,分布在 36 层中。gpt-oss-20b 模型虽然较小,但拥有 210 亿总参数,每个 token 有 36 亿活跃参数,32 个专家,每个 token 有 4 个活跃专家,分布在 24 层中。

它们采用了先进的技术,如交替的密集和局部带状稀疏注意力模式、用于推理效率的分组多查询注意力,以及旋转位置嵌入(Rotary Positional Embeddings,RoPE)。训练数据主要是英语,侧重于 STEM、编程和通用知识,使用 o200k_harmony 分词器进行分词,该分词器也将被开源。

后训练与高级推理

OpenAI 采用了复杂的后训练方法,包括监督微调和高计算强化学习(Reinforcement Learning,RL),以使这些模型与其内部的 OpenAI 模型规范 保持一致。这个过程赋予了它们强大的思维链(Chain-of-Thought,CoT)推理和工具使用能力,反映了其专有推理模型的性能。开发者可以通过简单的系统消息来控制模型的推理努力程度(低、中、高),从而在延迟和性能之间进行权衡。值得注意的是,CoT 推理不是直接监督的,这鼓励了对监控和对齐技术的研究。

安全性:基础优先事项

安全性在 OpenAI 的模型开发中仍然至关重要。gpt-oss 模型经过了严格的安全训练,包括过滤有害数据,并采用 审慎对齐指令层次结构 来拒绝不安全的提示并减轻提示注入攻击。OpenAI 还进行了对抗性微调和外部专家评审来评估风险,相关发现在随附的研究论文和模型卡中有详细说明。为了进一步加强开源 AI 生态系统的安全性,OpenAI 正在举办一个 红队挑战赛,奖金池为 50 万美元,邀请社区识别新的安全问题。

广泛可用性与生态系统支持

gpt-oss 模型可在 Hugging Face 上下载,采用 MXFP4 原生量化以提高效率。OpenAI 与众多领先的部署平台和硬件提供商合作,包括 Azure、Hugging Face、NVIDIA 和 AMD,以确保广泛的可用性和优化的性能。还提供了 PyTorch 和 Apple 的 Metal 平台的参考实现以及示例工具,以促进采用。

为什么开放模型很重要

gpt-oss 这样的开放模型通过为开发者提供更大的定制、微调和本地部署灵活性,补充了 OpenAI 的托管 API 模型。它们对于促进创新、实现更安全和透明的 AI 开发以及降低新兴市场和资源受限行业的门槛至关重要。OpenAI 相信,广泛访问能力强大的开放权重模型可以促进更健康和更民主的 AI 生态系统。

鼓励开发者通过 开放模型游乐场 探索这些模型,并参考提供的微调和部署指南。


本草案旨在从获取的页面中捕捉基本信息,同时采用与您现有博客内容相似的风格。如果您需要任何调整或添加更多细节,请告诉我!