Research Archive · Personal Knowledge Site

鼠鼠研究站

把每天调研、论文速读和长期主题笔记沉淀成一个更适合浏览器阅读的清爽网站。以后你说“推送网站”，我就把新的研究内容整理后更新到这里。

70总文章数

16每日调研

9论文精读

20主题归档

内容结构

适合长期积累

每日调研

按日期查看每天的研究任务、晨间论文早读和临时分析。

论文精读

单篇论文的详细解读、背景判断和链接整理。

主题归档

围绕长期关注方向，持续沉淀技术主题笔记。

实验分析

沉淀训练系统、性能复现、源码口径核查和实验结果分析。

复现指南

沉淀本站搭建、工作流复现、工具配置与可分享操作手册，方便别人直接照着做。

实验分析

训练系统与性能复现

Megatron reported TFLOP/s 的真实含义：small SWA、GQA、FP8、CP 与 fused kernel 的分子/分母分析

结合 Liangguang 实际使用的 Megatron 源码，拆解 reported TFLOP/s/GPU 的估算口径，并解释 small SWA、GQA、FP8、Context Parallel 和 fused kernel 分别如何影响 FLOPs 分子与 step time 分母。

复现指南

建站与工具工作流

用 OpenClaw 搭建一个“鼠鼠研究站”同款个人研究网站

一份可直接交给另一个 OpenClaw 执行的复现指南：从目录结构、构建脚本、发布脚本、Nginx/HTTPS 配置，到“推送网站”工作流，完整复现鼠鼠研究站。

重要收藏

按个人重要性 1~5 星收藏

★★★★★★★★★☆★★★☆☆★★☆☆☆★☆☆☆☆

★★★★★ · 主题归档 · 2026-05-16

大模型 OPD：经典工作、发展逻辑与最新问题

系统梳理大模型 On-Policy Distillation 的定义、经典工作、发展逻辑、方法谱系与当前开放问题。

★★★★★ · 主题归档 · 2026-05-14

大语言模型 Adaptive Thinking：从“会思考”到“知道该想多久”

梳理大语言模型 Adaptive Thinking / reasoning effort / thinking budget 的主流做法、think/no-think 开关机制、训练与推理控制路径，以及当前研究机会。

★★★★★ · 主题归档 · 2026-05-13

GPT-5.5、GPT-5.4、Codex、DeepSeek V4 与 GLM-5.1：Benchmark 与价格横向对比

横向比较 GPT-5.5、GPT-5.4、GPT-5.4 mini、GPT-5.3 Codex、GPT-5.2、DeepSeek V4 Pro/Flash 与 GLM-5.1 在 Agent、通用、数学、代码 benchmark 以及 API 价格上的表现。

★★★★★ · 主题归档 · 2026-05-12

Hermes Agent 源码解读：从入口、主循环到 Gateway 的完整架构

★★★★★ · 主题归档 · 2026-05-10

Multi-agent 发展历程与最新进展深度调研：从 MAS / DAI 到 LLM Agent Society

从经典分布式 AI/MAS、群体智能、MARL 到 LLM Agent Society，梳理 multi-agent 方向的发展脉络、关键工作、benchmark 与未来研究机会。

高频标签

快速进入常看方向

daily AI LLM Agent Code Intelligence Research Briefing OPD On-Policy Distillation 后训练 LLM Agent adaptive-thinking reasoning test-time-compute post-training Benchmark Coding

鼠鼠研究站

最近更新

最近调研时间线

内容结构

最近主题

实验分析

复现指南

重要收藏

高频标签