Claude 系列

📅 发表于 2025/12/06

🔄 更新于 2025/12/06

👁️ -- 次访问

📝 0 字

⏳ 0 分钟

概览

笔记

核心转变

RLHF+宪法AI对齐的大模型，编程具备上下文、工具增强、agentic的编程模型。

整体脉络

Claude 1→2：
- 增加长上下文窗口和更安全的指令遵循能力，提升了标准化代码合成与编辑的表现。
Claude 3/3.5：
- 引入原生多模态和函数调用功能
- 在沙箱评估环境下，其在 HumanEval 测试和多文件仓库编辑方面的性能有显著提升 。
Claude 4/4.5：
- 整合了深思熟虑的推理能力(deliberative reasoning)和Computer-Use能力(Terminal、IDE、包管理器、browse）
- 并结合了策略控制的工具使用及并行的测试时计算，在repo-level和终端编程套件上展现了强大的结果。

数据集

提示

(2512) Anthropic Interviewer：blog, data

Claude 4 系列

Claude4 系列

核心技术

结合深度思考和Computer-Use技术（包括沙箱、编辑器、包管理器、浏览器）
并通过RLHF和宪法AI进行训练和对齐。

关键结果

长跨度、工具增强的code agent。
Claude4在SWE-Bench效果好，Claude4.5提升仓库级修复能力，在terminal和工具使用显示出效果。

定位

自主代理（Agent）。
它不再只是生成代码文本，而是像人一样操作终端（Terminal）、使用编辑器、运行浏览器查资料、安装依赖包。

Claude 3 系列

Claude3

核心技术

原生多模态(看懂UI或架构图)、函数调用、仓库级编辑
Claude3(Opus/Sonnet/Haiku)：支持原生工具调用和视觉输入的多模态模型。
Claude3.5 Sonnet 进一步提升代码性能，在仓库级多代码编辑，展现出优势。

关键结果

多模态、长上下文、Repo-Level，支持大规模代码库的理解。

定位

高级助手。不仅能写代码，还能理解整个项目结构，并且“看”得懂需求。

Claude 1和2系列

Claude 1&2

Claude1

基础： RLHF（让模型听话）、Constitutional AI（让模型安全）
扩展：
- 长上下文（能读长代码）
- 更安全的指令跟随
- 结构化输出

Claude2

扩展上下文
针对多步推理和工具友好型格式，在训练和服务期间做了改进。辅助了对代码的理解。

定位

辅助工具。能写代码片段、解释代码，但主要还是处理文本和简单的逻辑。

总访客数： · 总访问量：

PLM's Blog @ 2016 - 2026