Tag Archive

标签：llm-reasoning

这里整理所有带有「llm-reasoning」标签的文章，方便按主题快速回看。

llm-reasoning

共 1 篇

论文精读 · 2026-06-21

"ExpRL：把参考答案从 SFT 样本变成 RL 探索脚手架"

"详解 arXiv 2606.17024：ExpRL 如何用参考解答构造 dense reward，解决稀疏奖励 RL 在硬题上的探索覆盖不足问题。"

reinforcement-learning llm-reasoning mid-training expRL GRPO agentic-rl