Skip to content

LLM 基础知识

📅 发表于 2025/07/09
🔄 更新于 2025/07/09
👁️ 次访问
📝 0 字
0 分钟

LLM 基础知识

训练目标

训练目标

LLM训练目标通常是最大似然估计(Max Likelihood Estimation, MLE)

  • 数据:大规模语料
  • 训练目标💗
    • 最大化模型生成文本序列的概率,序列来自训练数据中观察到的。
    • 模型根据上下文生成下一个词的条件概率分布,通过最大化词序列的概率来优化模型
    • 通过梯度下降法来更新参数,使用Batch Training进行小批量样本参数更新。

涌现现象

大模型涌现能力:现象和解释

涌现能力及其原因

🚀涌现能力

  • 在训练过程中能够生成出令人惊喜创造性新颖的内容或行为

🤔产生原因

  • 任务评价指标不够平滑:某指标太严格才算对,导致结果断层。
    • 比如评价需一字不错才算正确,其余都算错误。可能中间结果已经在逐步变好了,但这个指标看不出来。
  • 复杂任务 vs 子任务:出现涌现现象的大都是由多个子任务组成的复杂任务,但对子任务而言,其实符合scaling law现象,多个子任务组合一起,表现出了复杂任务的顿悟现象。
  • Grokking (顿悟)来解释涌现:任务T,随着模型及训练数据的增加,其相关数据达到最小阈值,这个任务就产生顿悟现象。

复读机问题

LLMs复读机问题LLMs Parroting Problem):模型可能会简单地复制输入文本的一部分或全部内容,并将其作为生成的输出,而不提供有意义或新颖的回应,缺乏创造性和独特性

复读机问题原因
  • 训练数据偏差:预训练数据中出现大量重复文本、某些句子短语出现频率较高。模型在生成时倾向于复制这些模式
  • 缺乏多样性训练数据:如果数据缺乏多样性语言表达或语境,模型可能无法学习到足够的多样性和创造性,导致复读机。
  • 训练目标限制:自监督学习NTP任务,使得模型倾向于生成与输入相似文本。
  • 模型结构及参数设置:如注意力机制及解码策略可能有影响。
解决方法

没有一种通用的方案,需要针对具体情况具体分析, 下面是一些常用手段。

  • 📚增加多样性训练数据
  • 生成文本时引入一些随机噪声,采样不同词汇增加多样性
  • 温度等解码参数调整:较高温度增加随机性🔥。
  • Beam搜索参数调整:调整搜索Beam大小和宽度。
  • 后处理和过滤重复短语句子
  • 人工干预和控制:对生成文本进行审查和筛选,保证多样性。

长文本问题

处理长句的挑战

理论上,LLM可以处理任意长度的句子,但是有一些挑战:

  • 🖥️计算资源不足:长句子消耗内存和时间
  • 😟模型训练推理存在挑战:太长可能会出现梯度消失或梯度爆炸问题🔥,影响收敛和训练效果推理会增加错误率和生成时间
  • 上下文建模存在挑战:LLM基于上下文建模,长句子的上下文会更长更深,模型需要捕捉长的语法结构来生成结果,有挑战。
处理长文本的方法

1、分块处理

  • 长文本分块,逐个片段输入到模型中。相邻片段做部分重叠,保持上下文一致性。

2、层次建模

  • 引入层次结构,把文本划分成篇章、段落、句子等层次信息,逐层输入模型进行处理。

3、部分生成

  • 只输入部分文本作为上下文,然后让模型生成所需的部分

4、注意力机制

  • 注意力机制帮助模型关注输入中的重要部分。

5、模型结构优化

  • 通过优化模型结构和参数设置,可以提高模型处理长文本的能力
总访客数:   ·   总访问量:
PLM's Blog @ 2016 - 2025