OpenAI 系列

数据集

GDPVal

(2509 )GPT5-Codex

参考文章

Codex 全面升级

GPT5-Codex 概览

核心技术

Agentic Coding，关键技术：
- 真实软件工程 RL学习，
- 沙盒执行，
- 可控工具使用等。

关键结果

外部评论：效果比GPT5好

(2508) GPT5

参考文章

GPT5 概览

GPT5

最强大的代码模型。

(2508) GPT-OSS

参考文章

隆重推出 gpt-oss

GPT-OSS 概览

核心

MoE，OpenAI 开源。
gpt-oss-120b, gpt-oss-20b

(2409) O系列

参考文章

(2409) 隆重推出 OpenAI o1-preview
(2504) 隆重推出 OpenAI o3 和 o4-mini

O系列概览

核心思想

以推理思维链、内部深思为核心。旨在解决复杂问题，比如编程等。

o1, o1-mini

首次引入 Step-by-step 内部推理，思考后再做回答。
o1-mini在软件任务上效果好。

o3, o3-mini

扩展上下文长度、优化了repo-level的代码编辑能力等。
SWE-Bench超越GPT4。

(2309) GPT4

参考文章

GPT4 概览

关键结果

相比GPT3，具有更强推理和代码能力。
GPT4-Turbo：提高生产环境效率。
GPT-4o：多模态，集成文本、图像和音频，保留强大代码能力。
GPT-4o-mini：强调成本效率。
GPT-4.1：扩展长上下文和代码编辑能力，可在Repo-Level做编辑。

(2211) ChatGPT/GPT3.5

参考文章

(2211) 隆重推出 ChatGPT
(2303) ChatGPT plugins

ChatGPT 概览

核心技术

基于InstructGPT开发，GPT3拓展版本，增加以下能力
- 额外的指令微调和RLHF
- 稳定的多轮对话能力，最核心。
- 增加安全拒识行为等内容。

关键结果

大火。
第一个被广泛应用的对话式LLM。
具有较好编程能力，在各IDE工作流中使用。

(2203) InstructGPT

参考文章

Training language models to follow instructions with human feedback

Instruct GPT 概览

问题背景

GPT3虽然懂得多，但经常答非所问、不安全、和人类需求不对齐。

核心技术

通过人类反馈RLHF，和人类偏好进行对齐。OpenAI 护城河。
人类偏好 Reward Model (偏好打分)、PPO训练等。

关键结果

模型更受人类青睐：幻觉更少、行为更安全。
小参数对齐模型 超越 大参数GPT3模型

Code X

Code X 概览

核心技术

GPT3编程特别版，GPT3+GitHub代码预训练。

关键结果

在HumanEval代码生成和补全Benchmark上表现不错，早期的代码对齐LLM。
催生了Github Copilot这种商业产品，解决了自然语言 -> 可执行代码的翻译问题。

GPT 3

GPT3 概览

核心技术

在大规模web和文本数据上做ScaleUp。

关键结果

强大的上下文学习能力(zero-shot/few-shot)，无需梯度更新也能适应理解、代码、推理等任务。

GPT 1-2

GPT1-2 系列概览

核心

验证了生成式预训练可行，开源了权重。

数据集 ​

(2509 )GPT5-Codex ​

(2508) GPT5 ​

(2508) GPT-OSS ​

(2409) O系列 ​

(2309) GPT4 ​

(2211) ChatGPT/GPT3.5 ​

(2203) InstructGPT ​

Code X ​

GPT 3 ​

GPT 1-2 ​

数据集

(2509 )GPT5-Codex

(2508) GPT5

(2508) GPT-OSS

(2409) O系列

(2309) GPT4

(2211) ChatGPT/GPT3.5

(2203) InstructGPT

Code X

GPT 3

GPT 1-2