Research Archive · Personal Knowledge Site

鼠鼠研究站

把每天调研、论文速读和长期主题笔记沉淀成一个更适合浏览器阅读的清爽网站。以后你说“推送网站”，我就把新的研究内容整理后更新到这里。

34总文章数

8每日调研

8论文精读

17主题归档

最近更新

按时间倒序，优先展示你最近最可能会继续看的内容

每日调研 · 2026-04-29

2026-04-29 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

实验分析 · 2026-04-29

Megatron reported TFLOP/s 的真实含义：small SWA、GQA、FP8、CP 与 fused kernel 的分子/分母分析

结合 Liangguang 实际使用的 Megatron 源码，拆解 reported TFLOP/s/GPU 的估算口径，并解释 small SWA、GQA、FP8、Context Parallel 和 fused kernel 分别如何影响 FLOPs 分子与 step time 分母。

实验分析 Megatron MFU H100 FP8 SWA GQA Context Parallel

论文精读 · 2026-04-29

从事实知识反推模型规模：IKP 论文解读与“价格能否替代知识探针”的小实验

解读 Incompressible Knowledge Probes 如何用长尾事实知识估算黑盒大模型规模，并用 OpenRouter 价格数据检验“能否用模型价格得到类似结论”。

LLM 模型规模知识容量 API价格论文解读

每日调研 · 2026-04-28

2026-04-28 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

主题归档 · 2026-04-28

On-Policy Distillation：从模型压缩到 Agent 自我进化的蒸馏范式

On-Policy Distillation 将蒸馏从静态教师数据推进到学生自身行为分布上的密集监督，成为连接 SFT、RLHF、模型合版与 personal agent 自我进化的一条关键技术路线。

LLM Agent Reinforcement Learning Distillation Self-Evolution

主题归档 · 2026-04-27

大模型预训练数据准备中的去重算法：从 ExactSubstr 到 MinHash LSH 与语义去重

系统梳理大模型预训练数据去重的主流算法脉络，重点解释当前最常用、最有效的 MinHash LSH 近重复去重，以及 ExactSubstr、后缀数组、语义去重和 GPU 加速工具链的适用边界。

LLM 预训练数据数据去重 MinHash SemDeDup

主题归档 · 2026-04-26

OpenVLA 详解：开源 VLA 如何把视觉语言模型变成机器人策略

详细拆解 OpenVLA 的技术动机、模型结构、训练数据、动作表示、实验结果、微调部署路径与局限性，解释它为什么是 VLA 路线走向开放可复现的重要节点。

robotics embodied-ai vla openvla generalist-policy imitation-learning

主题归档 · 2026-04-26

WAM（World Action Model）发展脉络综述：从世界模型到 VLA，再到统一生成与决策

系统梳理 WAM（World Action Model）截至 2026-04-26 的发展脉络：其前史如何从世界模型、VLA 和视频基础模型三条线汇合而来；每个代表工作相对之前方法解决了什么问题；又引入了哪些新的困难；以及 WAM 当前真正卡在哪里。

wam world-model robotics embodied-ai vla survey

主题归档 · 2026-04-26

从 SGD 到 Muon：大模型训练中优化器的演化逻辑、方法细节与未来展望

从最基础的随机梯度下降出发，系统梳理 Momentum、AdaGrad、RMSProp、Adam、AdamW、大模型训练中的参数分组与二阶/预条件思想，最后落到 Muon 的核心动机、算法结构、适用边界与未来优化器演化趋势。

optimization llm training muon deep-learning reasoning

主题归档 · 2026-04-26

从 VLA 到 WAM：机器人基础模型的演化脉络、关键问题与下一步

系统梳理机器人基础模型从 RT-1、RT-2、Octo、OpenVLA 等 Vision-Language-Action 路线，如何因动作生成、闭环控制、长时程推理与泛化鲁棒性的瓶颈，进一步演进到 WAM（World Action Model）路线，并分析 WAM 的核心思想、解决的问题及其新挑战。

robotics embodied-ai vla world-model wam survey

最近调研时间线

把每天的晨读、临时研究和总结放在一个更适合浏览器看的地方

2026-04-29

2026-04-29 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

2026-04-28

2026-04-28 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

2026-04-21

UMI、Ego-centric 与 EGOScale：机器人数据采集为什么开始从“机器学机器”转向“机器向人学”

从 UMI 到 Ego-centric / EGOScale，行业关注点正在从机器人执行轨迹，转向人类真实作业过程的数据资产。这不只是更便宜的数据采集，而是训练范式的变化。

2026-04-20

2026-04-20 Hugging Face Daily Papers 早读

今天的 Hugging Face Daily Papers 早读，筛前 10 篇并压成适合浏览器阅读的高密度版本。

2026-03-23

2026-03-23 学习记录：Better & Faster Large Language Models via Multi-token Prediction

Better & Faster MTP 论文核心思想与价值。

2026-03-23

2026-03-23 学习记录：Multi-Token Prediction

大模型中的 multi-token prediction（MTP）研究进展，以及它与 speculative decoding 的区别。

内容结构

适合长期积累

每日调研

按日期查看每天的研究任务、晨间论文早读和临时分析。

论文精读

单篇论文的详细解读、背景判断和链接整理。

主题归档

围绕长期关注方向，持续沉淀技术主题笔记。

实验分析

沉淀训练系统、性能复现、源码口径核查和实验结果分析。

最近主题

更像知识库入口

On-Policy Distillation：从模型压缩到 Agent 自我进化的蒸馏范式

On-Policy Distillation 将蒸馏从静态教师数据推进到学生自身行为分布上的密集监督，成为连接 SFT、RLHF、模型合版与 personal agent 自我进化的一条关键技术路线。

大模型预训练数据准备中的去重算法：从 ExactSubstr 到 MinHash LSH 与语义去重

系统梳理大模型预训练数据去重的主流算法脉络，重点解释当前最常用、最有效的 MinHash LSH 近重复去重，以及 ExactSubstr、后缀数组、语义去重和 GPU 加速工具链的适用边界。

OpenVLA 详解：开源 VLA 如何把视觉语言模型变成机器人策略

详细拆解 OpenVLA 的技术动机、模型结构、训练数据、动作表示、实验结果、微调部署路径与局限性，解释它为什么是 VLA 路线走向开放可复现的重要节点。

WAM（World Action Model）发展脉络综述：从世界模型到 VLA，再到统一生成与决策

系统梳理 WAM（World Action Model）截至 2026-04-26 的发展脉络：其前史如何从世界模型、VLA 和视频基础模型三条线汇合而来；每个代表工作相对之前方法解决了什么问题；又引入了哪些新的困难；以及 WAM 当前真正卡在哪里。

从 SGD 到 Muon：大模型训练中优化器的演化逻辑、方法细节与未来展望

从最基础的随机梯度下降出发，系统梳理 Momentum、AdaGrad、RMSProp、Adam、AdamW、大模型训练中的参数分组与二阶/预条件思想，最后落到 Muon 的核心动机、算法结构、适用边界与未来优化器演化趋势。

从 VLA 到 WAM：机器人基础模型的演化脉络、关键问题与下一步

系统梳理机器人基础模型从 RT-1、RT-2、Octo、OpenVLA 等 Vision-Language-Action 路线，如何因动作生成、闭环控制、长时程推理与泛化鲁棒性的瓶颈，进一步演进到 WAM（World Action Model）路线，并分析 WAM 的核心思想、解决的问题及其新挑战。

具身智能 Sim-to-Real 发展脉络综述：从弥合现实差距到构造可规模化的物理经验

梳理具身智能 Sim-to-Real 从精确建模、Domain Randomization、Real2Sim2Real、高性能仿真、Embodied AI Simulator 到生成式仿真和世界模型的研究逻辑与演化。

具身智能发展脉络全景梳理：从控制与感知到机器人基础模型

系统梳理具身智能从经典机器人控制、深度强化学习、sim2real、模仿学习，到机器人基础模型、VLA 与跨机器人通用策略的发展逻辑，讲清每一阶段在解决什么核心问题。

实验分析

训练系统与性能复现

Megatron reported TFLOP/s 的真实含义：small SWA、GQA、FP8、CP 与 fused kernel 的分子/分母分析

结合 Liangguang 实际使用的 Megatron 源码，拆解 reported TFLOP/s/GPU 的估算口径，并解释 small SWA、GQA、FP8、Context Parallel 和 fused kernel 分别如何影响 FLOPs 分子与 step time 分母。

重要收藏

按个人重要性 1~5 星收藏

★★★★★★★★★☆★★★☆☆★★☆☆☆★☆☆☆☆

★★★★★ · 实验分析 · 2026-04-29

Megatron reported TFLOP/s 的真实含义：small SWA、GQA、FP8、CP 与 fused kernel 的分子/分母分析

结合 Liangguang 实际使用的 Megatron 源码，拆解 reported TFLOP/s/GPU 的估算口径，并解释 small SWA、GQA、FP8、Context Parallel 和 fused kernel 分别如何影响 FLOPs 分子与 step time 分母。

★★★★★ · 论文精读 · 2026-04-29

从事实知识反推模型规模：IKP 论文解读与“价格能否替代知识探针”的小实验

解读 Incompressible Knowledge Probes 如何用长尾事实知识估算黑盒大模型规模，并用 OpenRouter 价格数据检验“能否用模型价格得到类似结论”。

★★★★★ · 主题归档 · 2026-04-28

On-Policy Distillation：从模型压缩到 Agent 自我进化的蒸馏范式

On-Policy Distillation 将蒸馏从静态教师数据推进到学生自身行为分布上的密集监督，成为连接 SFT、RLHF、模型合版与 personal agent 自我进化的一条关键技术路线。

★★★★★ · 主题归档 · 2026-04-27

大模型预训练数据准备中的去重算法：从 ExactSubstr 到 MinHash LSH 与语义去重

系统梳理大模型预训练数据去重的主流算法脉络，重点解释当前最常用、最有效的 MinHash LSH 近重复去重，以及 ExactSubstr、后缀数组、语义去重和 GPU 加速工具链的适用边界。

★★★★★ · 主题归档 · 2026-04-26

OpenVLA 详解：开源 VLA 如何把视觉语言模型变成机器人策略

详细拆解 OpenVLA 的技术动机、模型结构、训练数据、动作表示、实验结果、微调部署路径与局限性，解释它为什么是 VLA 路线走向开放可复现的重要节点。

高频标签

快速进入常看方向

daily AI LLM Agent Code Intelligence Research Briefing 实验分析 Megatron MFU H100 FP8 SWA GQA Context Parallel 模型规模知识容量