主题归档 · 2026-04-26
从最基础的随机梯度下降出发,系统梳理 Momentum、AdaGrad、RMSProp、Adam、AdamW、大模型训练中的参数分组与二阶/预条件思想,最后落到 Muon 的核心动机、算法结构、适用边界与未来优化器演化趋势。
主题归档 · 2026-04-24
系统拆解 DeepSeek V4 技术报告的核心思路,重点分析其 MoE 架构、路由与负载均衡、长上下文优化、训练系统设计、后训练与推理部署上的特色与创新。
论文精读 · 2026-04-22
这篇论文系统回答了一个关键问题:LLM 在什么条件下能靠弱监督 RL 真正学会推理,什么时候又只是在记忆和投机。
论文精读 · 2026-04-20
OpenMythos 不是 Anthropic Mythos 的内幕揭秘,而是一套把 Recurrent-Depth Transformer、latent reasoning、ACT、稳定递归和 MoE 拼装起来的高强度理论重建框架。
每日调研 · 2026-03-23
近两年强化学习如何影响大模型后训练与能力演进。
论文精读
**标题**:Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
主题归档
截至 2026-03,LLM 领域的 credit assignment 已形成两条主线:其一是“偏好学习主线”(RLHF/RLAIF 与 DPO/IPO/KTO/ORPO/SimPO 等),其核心是把序列级偏好信号转成 token 级可优化目标;其二是“可验证奖励主线”(RLVR、GRPO、过程奖励 PRM、结果奖励 ORM),在数学/代码等可判真任务上显