实验分析 · 2026-04-29
结合 Liangguang 实际使用的 Megatron 源码,拆解 reported TFLOP/s/GPU 的估算口径,并解释 small SWA、GQA、FP8、Context Parallel 和 fused kernel 分别如何影响 FLOPs 分子与 step time 分母。
论文精读 · 2026-04-29
解读 Incompressible Knowledge Probes 如何用长尾事实知识估算黑盒大模型规模,并用 OpenRouter 价格数据检验“能否用模型价格得到类似结论”。
主题归档 · 2026-04-28
On-Policy Distillation 将蒸馏从静态教师数据推进到学生自身行为分布上的密集监督,成为连接 SFT、RLHF、模型合版与 personal agent 自我进化的一条关键技术路线。
主题归档 · 2026-04-27
系统梳理大模型预训练数据去重的主流算法脉络,重点解释当前最常用、最有效的 MinHash LSH 近重复去重,以及 ExactSubstr、后缀数组、语义去重和 GPU 加速工具链的适用边界。
主题归档 · 2026-04-26
详细拆解 OpenVLA 的技术动机、模型结构、训练数据、动作表示、实验结果、微调部署路径与局限性,解释它为什么是 VLA 路线走向开放可复现的重要节点。
主题归档 · 2026-04-26
系统梳理 WAM(World Action Model)截至 2026-04-26 的发展脉络:其前史如何从世界模型、VLA 和视频基础模型三条线汇合而来;每个代表工作相对之前方法解决了什么问题;又引入了哪些新的困难;以及 WAM 当前真正卡在哪里。
主题归档 · 2026-04-26
从最基础的随机梯度下降出发,系统梳理 Momentum、AdaGrad、RMSProp、Adam、AdamW、大模型训练中的参数分组与二阶/预条件思想,最后落到 Muon 的核心动机、算法结构、适用边界与未来优化器演化趋势。
主题归档 · 2026-04-26
系统梳理机器人基础模型从 RT-1、RT-2、Octo、OpenVLA 等 Vision-Language-Action 路线,如何因动作生成、闭环控制、长时程推理与泛化鲁棒性的瓶颈,进一步演进到 WAM(World Action Model)路线,并分析 WAM 的核心思想、解决的问题及其新挑战。
主题归档 · 2026-04-26
梳理具身智能 Sim-to-Real 从精确建模、Domain Randomization、Real2Sim2Real、高性能仿真、Embodied AI Simulator 到生成式仿真和世界模型的研究逻辑与演化。
主题归档 · 2026-04-25
系统梳理具身智能从经典机器人控制、深度强化学习、sim2real、模仿学习,到机器人基础模型、VLA 与跨机器人通用策略的发展逻辑,讲清每一阶段在解决什么核心问题。
主题归档 · 2026-04-25
系统梳理视频生成从 GAN/VAE 时代、扩散范式崛起、级联与高分辨率、DiT 与大规模开源,到 2026 年多模态音视频联合生成与世界复杂性竞争的发展逻辑。
论文精读 · 2026-04-22
这篇论文系统回答了一个关键问题:LLM 在什么条件下能靠弱监督 RL 真正学会推理,什么时候又只是在记忆和投机。
论文精读 · 2026-04-20
HY-World 2.0 不只是又一个 3D 生成模型,而是在尝试统一重建、生成、扩展与模拟四类能力,走向可交互的 3D 世界底座。
论文精读 · 2026-04-20
OpenMythos 不是 Anthropic Mythos 的内幕揭秘,而是一套把 Recurrent-Depth Transformer、latent reasoning、ACT、稳定递归和 MoE 拼装起来的高强度理论重建框架。