论文精读 · 2026-04-22
这篇论文系统回答了一个关键问题:LLM 在什么条件下能靠弱监督 RL 真正学会推理,什么时候又只是在记忆和投机。
每日调研 · 2026-03-23
小米 MiMo 系列(重点是 MiMo-7B 与 MiMo-V2-Flash)的技术路线。
每日调研 · 2026-03-23
近两年强化学习如何影响大模型后训练与能力演进。
主题归档
**3D / 时空 VAE(Variational Autoencoder)**,可以理解成:
论文精读
**标题**:Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
主题归档
这个主题关注小米 MiMo 系列公开技术信息,当前重点包括:
主题归档
截至 2026-03,LLM 领域的 credit assignment 已形成两条主线:其一是“偏好学习主线”(RLHF/RLAIF 与 DPO/IPO/KTO/ORPO/SimPO 等),其核心是把序列级偏好信号转成 token 级可优化目标;其二是“可验证奖励主线”(RLVR、GRPO、过程奖励 PRM、结果奖励 ORM),在数学/代码等可判真任务上显