Tag Archive

标签：reasoning

这里整理所有带有「reasoning」标签的文章，方便按主题快速回看。

reasoning

共 8 篇

主题归档 · 2026-04-26

从 SGD 到 Muon：大模型训练中优化器的演化逻辑、方法细节与未来展望

从最基础的随机梯度下降出发，系统梳理 Momentum、AdaGrad、RMSProp、Adam、AdamW、大模型训练中的参数分组与二阶/预条件思想，最后落到 Muon 的核心动机、算法结构、适用边界与未来优化器演化趋势。

optimization llm training muon deep-learning reasoning

主题归档 · 2026-04-24

DeepSeek V4 技术报告解读：从架构、训练到系统工程的全面升级

系统拆解 DeepSeek V4 技术报告的核心思路，重点分析其 MoE 架构、路由与负载均衡、长上下文优化、训练系统设计、后训练与推理部署上的特色与创新。

deepseek moe reasoning 长上下文系统工程

论文精读 · 2026-04-22

When Can LLMs Learn to Reason with Weak Supervision? 论文详解

这篇论文系统回答了一个关键问题：LLM 在什么条件下能靠弱监督 RL 真正学会推理，什么时候又只是在记忆和投机。

papers reasoning rl weak-supervision rlvr

论文精读 · 2026-04-20

OpenMythos 与 Mythos 中央假设深度调研

OpenMythos 不是 Anthropic Mythos 的内幕揭秘，而是一套把 Recurrent-Depth Transformer、latent reasoning、ACT、稳定递归和 MoE 拼装起来的高强度理论重建框架。

agent reasoning world-model recurrent-depth latent-reasoning transformer

每日调研 · 2026-03-23

2026-03-23 学习记录：强化学习如何推动大模型发展

近两年强化学习如何影响大模型后训练与能力演进。

agent rl reasoning

论文精读

arXiv 2603.19235 解读

**标题**：Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

3D world-model agent rl video reasoning

主题归档

强化学习如何推动大模型发展

这个主题关注：

agent rl reasoning

主题归档

目前大模型与 LLM Agent 的 Credit Assignment 研究报告（2023-2026）

截至 2026-03，LLM 领域的 credit assignment 已形成两条主线：其一是“偏好学习主线”（RLHF/RLAIF 与 DPO/IPO/KTO/ORPO/SimPO 等），其核心是把序列级偏好信号转成 token 级可优化目标；其二是“可验证奖励主线”（RLVR、GRPO、过程奖励 PRM、结果奖励 ORM），在数学/代码等可判真任务上显

agent rl reasoning