★★★★★ · 实验分析 · 2026-04-29
结合 Liangguang 实际使用的 Megatron 源码,拆解 reported TFLOP/s/GPU 的估算口径,并解释 small SWA、GQA、FP8、Context Parallel 和 fused kernel 分别如何影响 FLOPs 分子与 step time 分母。
★★★★★ · 论文精读 · 2026-04-29
解读 Incompressible Knowledge Probes 如何用长尾事实知识估算黑盒大模型规模,并用 OpenRouter 价格数据检验“能否用模型价格得到类似结论”。
★★★★★ · 主题归档 · 2026-04-28
On-Policy Distillation 将蒸馏从静态教师数据推进到学生自身行为分布上的密集监督;它不仅是 RL 的稳定替代形态,也是 DeepSeek-V4 式多专家合版、coding agent 经验吸收和 personal agent 自我进化的关键桥梁。
★★★★★ · 主题归档 · 2026-04-27
系统梳理大模型预训练数据去重的主流算法脉络,重点解释当前最常用、最有效的 MinHash LSH 近重复去重,以及 ExactSubstr、后缀数组、语义去重和 GPU 加速工具链的适用边界。
★★★★★ · 主题归档 · 2026-04-26
详细拆解 OpenVLA 的技术动机、模型结构、训练数据、动作表示、实验结果、微调部署路径与局限性,解释它为什么是 VLA 路线走向开放可复现的重要节点。