Tag Archive

标签：Post-training

这里整理所有带有「Post-training」标签的文章，方便按主题快速回看。

Post-training

共 2 篇

主题归档 · 2026-06-21

PPO 在 Agentic RL 中的应用与进展：从 RLHF 到长轨迹 Agent 训练

梳理 PPO 如何从 RLHF 的标准算法，演化到多轮工具使用、搜索、Web/GUI/代码 Agent 中的 turn-level、sequence-level、trajectory-level 训练框架，并分析它与 GRPO/GIGPO/HGPO 等新算法的关系。

PPO Agentic RL LLM Agent RLHF RLVR GRPO Credit Assignment Post-training

论文精读 · 2026-06-17

VibeThinker-3B：3B 小模型能否逼近一线可验证推理能力？

详解 VibeThinker-3B 技术报告：如何用 Spectrum-to-Signal 后训练范式、multi-domain RL、offline self-distillation 与 claim-level test-time scaling，把 3B dense 小模型推到数学和代码等可验证推理任务的一线性能区间。

LLM Reasoning Small Language Models Post-training RLVR Code Reasoning Test-time Scaling