Tag Archive

标签:rl

这里整理所有带有「rl」标签的文章,方便按主题快速回看。

rl

共 8 篇
论文精读 · 2026-04-22

When Can LLMs Learn to Reason with Weak Supervision? 论文详解

这篇论文系统回答了一个关键问题:LLM 在什么条件下能靠弱监督 RL 真正学会推理,什么时候又只是在记忆和投机。
papersreasoningrlweak-supervisionrlvr
每日调研 · 2026-03-23

2026-03-23 学习记录:小米 MiMo 模型设计

小米 MiMo 系列(重点是 MiMo-7B 与 MiMo-V2-Flash)的技术路线。
agentrl
每日调研 · 2026-03-23

2026-03-23 学习记录:强化学习如何推动大模型发展

近两年强化学习如何影响大模型后训练与能力演进。
agentrlreasoning
主题归档

3D / 时空 VAE 详解

**3D / 时空 VAE(Variational Autoencoder)**,可以理解成:
3Dworld-modelrlvideo
论文精读

arXiv 2603.19235 解读

**标题**:Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
3Dworld-modelagentrlvideoreasoning
主题归档

小米 MiMo 模型设计

这个主题关注小米 MiMo 系列公开技术信息,当前重点包括:
agentrl
主题归档

目前大模型与 LLM Agent 的 Credit Assignment 研究报告(2023-2026)

截至 2026-03,LLM 领域的 credit assignment 已形成两条主线:其一是“偏好学习主线”(RLHF/RLAIF 与 DPO/IPO/KTO/ORPO/SimPO 等),其核心是把序列级偏好信号转成 token 级可优化目标;其二是“可验证奖励主线”(RLVR、GRPO、过程奖励 PRM、结果奖励 ORM),在数学/代码等可判真任务上显
agentrlreasoning