Skip to content
📚 plmblog
Search
K
Main Navigation
首页
🐲LLM
Basic
🦋基础知识
🛠基建框架
强化学习
🎓RL理论基础
🚘RLHF
🚢推理模型
🚄Agent-RL
Agent
🤖概念及应用
行业方向
🚀主流模型
📙旧文章
🍓NLP
自然语言处理
🍑基础知识
深度学习
强化学习
机器学习
🍎算法
算法题
大数据
🍒其他
环境搭建
其他
经验
环境
环境搭建
心得
心得体会
归档
关于我
Appearance
Menu
Return to top
当前页大纲
PPO改进系列
📅 发表于
2025/09/23
🔄 更新于
2025/09/23
👁️
-- 次访问
📝
0 字
⏳
0 分钟
ppo
#ppo
#vc-ppo
PPO
VC-PPO
摘要
What’s Behind PPO’s Collapse in Long-CoT? Value Optimization Holds the Secret
❓问题背景
问题背景
📕核心方法
核心方法
✍️实验设置
实验配置
🍑关键结果
关键结果
⛳未来方向
未来方向
总访客数:
· 总访问量:
PLM's Blog @ 2016 - 2025