🧱 基础建设
🔄 强化学习
🌟 行业方向
🏹 领域任务
🤖 Agent
📦 其他
🧩 刷题
⚙️ 配置
🧘 心得
🗣️ NLP
🧬 基础理论
🧮 算法专栏
☕ 其他
Appearance
PG损失
熵奖励
KL 惩罚
pg_loss
entropy_coeff * entropy_loss
kl_loss_coef * kl_loss
Seq-Level PG Loss
Token-Level PG Loss