Gemini 系列

📅 发表于 2025/12/06

🔄 更新于 2025/12/06

👁️ -- 次访问

📝 0 字

⏳ 0 分钟

概览

信息

Google 的 PaLM–Gemini 谱系从早期的 PaLM 开始演进，

PaLM 采用稠密（Dense）的仅解码器（Decoder-only）架构，利用 Pathways 系统进行扩展，并使用了 SwiGLU 和并行的注意力/前馈网络（Attention/FFN）机制。
随后，该系列转向以效率为导向的重新设计，引入了多语言预训练和 UL2 风格的去噪任务（PaLM 2）。
最终，发展为具备稀疏专家路由（Sparse Expert Routing）和内存高效长上下文注意力机制的原生多模态模型（Gemini）。
纵观几代模型，该系列通过扩展序列建模能力和集成工具使用能力，巩固了在程序合成、多语言编辑和仓库级推理方面的代码智能。

Gemini 2&2.5

提示

核心思想

强调效率、推理和代码。
自然语言+代码数据预训练，在修复、翻译、合成上做微调。

Gemini 2.0 Flash

优化长上下文的注意力和内存，同时保留了多模态能力

Gemini 2.5

扩展上下文长度、并行能力、Agentic 能力 (ToolUse, 迭代推理等)

关键结果

在Natural2Code、Bird-SQL、LiveCodeBench、Aider Polyglot 和 SWE-Bench Verified 上取得不错结果。

Gemini 1&1.5

Gemini 1&1.5 概览

核心技术

在Pathways架构下，引入原生多模态能力(文本/语音/视觉)
Gemini1.5：Sparse MoE 架构，效率优化、百万长上下文

关键结果

Repo-Level理解、长代码推理等。Gemini1.5比Gemini1在HumanEval/Natrual2Code等Bench上效果更好。

PaLM 2

PaLM2 概览

核心技术

通过多语言预训练和 UL2风格的去噪目标，优化了扩展性与数据之间的平衡

关键结果

在计算效率更高的尺寸下提供了更强的结果。
PaLM2-S代码变体：在多语言代码上训练，
- 在HumanEval、MBPP、ARCADE 和 BabelCode 上效果具有竞争力

PaLM

PaLM 概览

核心技术

Decoder-Only，Dense Model。
使用SwiGLU 和并行注意力/FFN 来提升扩展性。
在自然语言和大量代码的混合数据上进行训练。
PaLM-Coder：增强了生成、翻译、修复等能力。

总访客数： · 总访问量：

PLM's Blog @ 2016 - 2026