Skip to content

Gemini 系列

📅 发表于 2025/12/06
🔄 更新于 2025/12/06
👁️ -- 次访问
📝 0 字
0 分钟

概览

信息

Google 的 PaLM–Gemini 谱系从早期的 PaLM 开始演进,

  • PaLM 采用稠密(Dense)的仅解码器(Decoder-only)架构,利用 Pathways 系统进行扩展,并使用了 SwiGLU 和并行的注意力/前馈网络(Attention/FFN)机制。
  • 随后,该系列转向以效率为导向的重新设计,引入了多语言预训练和 UL2 风格的去噪任务(PaLM 2)。
  • 最终,发展为具备稀疏专家路由(Sparse Expert Routing)和内存高效长上下文注意力机制的原生多模态模型(Gemini)。
  • 纵观几代模型,该系列通过扩展序列建模能力和集成工具使用能力,巩固了在程序合成、多语言编辑和仓库级推理方面的代码智能。

Gemini 2&2.5

提示

核心思想

  • 强调效率、推理和代码。
  • 自然语言+代码数据预训练,在修复、翻译、合成上做微调。

Gemini 2.0 Flash

  • 优化长上下文的注意力和内存,同时保留了多模态能力

Gemini 2.5

  • 扩展上下文长度、并行能力、Agentic 能力 (ToolUse, 迭代推理等)

关键结果

  • 在Natural2Code、Bird-SQL、LiveCodeBench、Aider Polyglot 和 SWE-Bench Verified 上取得不错结果。

Gemini 1&1.5

Gemini 1&1.5 概览

核心技术

  • 在Pathways架构下,引入原生多模态能力(文本/语音/视觉)
  • Gemini1.5:Sparse MoE 架构,效率优化、百万长上下文

关键结果

  • Repo-Level理解、长代码推理等。Gemini1.5比Gemini1在HumanEval/Natrual2Code等Bench上效果更好。

PaLM 2

PaLM2 概览

核心技术

  • 通过多语言预训练UL2风格的去噪目标,优化了扩展性与数据之间的平衡

关键结果

  • 在计算效率更高的尺寸下提供了更强的结果。
  • PaLM2-S代码变体:在多语言代码上训练,
    • 在HumanEval、MBPP、ARCADE 和 BabelCode 上效果具有竞争力

PaLM

PaLM 概览

核心技术

  • Decoder-Only,Dense Model。
  • 使用SwiGLU 和并行注意力/FFN 来提升扩展性。
  • 自然语言大量代码的混合数据上进行训练。
  • PaLM-Coder:增强了生成、翻译、修复等能力。
总访客数:   ·   总访问量:
PLM's Blog @ 2016 - 2026