Tag Archive

标签:reasoning

这里整理所有带有「reasoning」标签的文章,方便按主题快速回看。

reasoning

共 8 篇
主题归档 · 2026-04-26

从 SGD 到 Muon:大模型训练中优化器的演化逻辑、方法细节与未来展望

从最基础的随机梯度下降出发,系统梳理 Momentum、AdaGrad、RMSProp、Adam、AdamW、大模型训练中的参数分组与二阶/预条件思想,最后落到 Muon 的核心动机、算法结构、适用边界与未来优化器演化趋势。
optimizationllmtrainingmuondeep-learningreasoning
主题归档 · 2026-04-24

DeepSeek V4 技术报告解读:从架构、训练到系统工程的全面升级

系统拆解 DeepSeek V4 技术报告的核心思路,重点分析其 MoE 架构、路由与负载均衡、长上下文优化、训练系统设计、后训练与推理部署上的特色与创新。
deepseekmoereasoning长上下文系统工程
论文精读 · 2026-04-22

When Can LLMs Learn to Reason with Weak Supervision? 论文详解

这篇论文系统回答了一个关键问题:LLM 在什么条件下能靠弱监督 RL 真正学会推理,什么时候又只是在记忆和投机。
papersreasoningrlweak-supervisionrlvr
论文精读 · 2026-04-20

OpenMythos 与 Mythos 中央假设深度调研

OpenMythos 不是 Anthropic Mythos 的内幕揭秘,而是一套把 Recurrent-Depth Transformer、latent reasoning、ACT、稳定递归和 MoE 拼装起来的高强度理论重建框架。
agentreasoningworld-modelrecurrent-depthlatent-reasoningtransformer
每日调研 · 2026-03-23

2026-03-23 学习记录:强化学习如何推动大模型发展

近两年强化学习如何影响大模型后训练与能力演进。
agentrlreasoning
论文精读

arXiv 2603.19235 解读

**标题**:Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
3Dworld-modelagentrlvideoreasoning
主题归档

目前大模型与 LLM Agent 的 Credit Assignment 研究报告(2023-2026)

截至 2026-03,LLM 领域的 credit assignment 已形成两条主线:其一是“偏好学习主线”(RLHF/RLAIF 与 DPO/IPO/KTO/ORPO/SimPO 等),其核心是把序列级偏好信号转成 token 级可优化目标;其二是“可验证奖励主线”(RLVR、GRPO、过程奖励 PRM、结果奖励 ORM),在数学/代码等可判真任务上显
agentrlreasoning