Research Archive · Personal Knowledge Site

鼠鼠研究站

把每天调研、论文速读和长期主题笔记沉淀成一个更适合浏览器阅读的清爽网站。以后你说“推送网站”,我就把新的研究内容整理后更新到这里。

64总文章数
16每日调研
9论文精读
20主题归档

最近更新

按时间倒序,优先展示你最近最可能会继续看的内容
每日调研 · 2026-05-13

2026-05-13 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
主题归档 · 2026-05-13

GPT-5.5、GPT-5.4、Codex、DeepSeek V4 与 GLM-5.1:Benchmark 与价格横向对比

横向比较 GPT-5.5、GPT-5.4、GPT-5.4 mini、GPT-5.3 Codex、GPT-5.2、DeepSeek V4 Pro/Flash 与 GLM-5.1 在 Agent、通用、数学、代码 benchmark 以及 API 价格上的表现。
每日调研 · 2026-05-12

2026-05-12 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
主题归档 · 2026-05-12

Hermes Agent 源码解读:从入口、主循环到 Gateway 的完整架构

基于 /usr/local/lib/hermes-agent 本地源码,系统解读 Hermes Agent 的 CLI、AIAgent 主循环、模型 Provider 路由、工具系统、Skills、Memory、SessionDB、Gateway、多平台适配、Cron、Webhook、Plugin、MCP、TUI、ACP、安全边界和扩展路线。
每日调研 · 2026-05-11

2026-05-11 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
每日调研 · 2026-05-10

2026-05-10 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
主题归档 · 2026-05-10

Multi-agent 发展历程与最新进展深度调研:从 MAS / DAI 到 LLM Agent Society

从经典分布式 AI/MAS、群体智能、MARL 到 LLM Agent Society,梳理 multi-agent 方向的发展脉络、关键工作、benchmark 与未来研究机会。
主题归档 · 2026-05-10

上下文太多为什么会让大模型变笨:长上下文退化、Context Engineering 与科研机会综述

面向初学者和研究选题,系统解释长上下文退化的现象、机制、评测、模型与系统方案,以及它如何连接 RAG、上下文压缩、KV cache、Agent memory、代码智能、长轨迹 RL 和 latent-space reasoning。
主题归档 · 2026-05-10

以 DreamZero 为锚点看 World Action Model:从 Dreamer、视频生成规划到机器人零样本策略

以 DreamZero / World Action Models are Zero-shot Policies 为锚点,用小白能懂的人话解释 WAM 的前置脉络、视频-动作对齐机制、后续工作与可研究方向。
每日调研 · 2026-05-09

2026-05-09 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

最近调研时间线

把每天的晨读、临时研究和总结放在一个更适合浏览器看的地方
2026-05-13

2026-05-13 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-05-12

2026-05-12 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-05-11

2026-05-11 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-05-10

2026-05-10 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-05-09

2026-05-09 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-05-08

2026-05-08 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

内容结构

适合长期积累

每日调研

按日期查看每天的研究任务、晨间论文早读和临时分析。

论文精读

单篇论文的详细解读、背景判断和链接整理。

主题归档

围绕长期关注方向,持续沉淀技术主题笔记。

实验分析

沉淀训练系统、性能复现、源码口径核查和实验结果分析。

复现指南

沉淀本站搭建、工作流复现、工具配置与可分享操作手册,方便别人直接照着做。

最近主题

更像知识库入口

GPT-5.5、GPT-5.4、Codex、DeepSeek V4 与 GLM-5.1:Benchmark 与价格横向对比

横向比较 GPT-5.5、GPT-5.4、GPT-5.4 mini、GPT-5.3 Codex、GPT-5.2、DeepSeek V4 Pro/Flash 与 GLM-5.1 在 Agent、通用、数学、代码 benchmark 以及 API 价格上的表现。

Hermes Agent 源码解读:从入口、主循环到 Gateway 的完整架构

基于 /usr/local/lib/hermes-agent 本地源码,系统解读 Hermes Agent 的 CLI、AIAgent 主循环、模型 Provider 路由、工具系统、Skills、Memory、SessionDB、Gateway、多平台适配、Cron、Webhook、Plugin、MCP、TUI、ACP、安全边界和扩展路线。

Multi-agent 发展历程与最新进展深度调研:从 MAS / DAI 到 LLM Agent Society

从经典分布式 AI/MAS、群体智能、MARL 到 LLM Agent Society,梳理 multi-agent 方向的发展脉络、关键工作、benchmark 与未来研究机会。

上下文太多为什么会让大模型变笨:长上下文退化、Context Engineering 与科研机会综述

面向初学者和研究选题,系统解释长上下文退化的现象、机制、评测、模型与系统方案,以及它如何连接 RAG、上下文压缩、KV cache、Agent memory、代码智能、长轨迹 RL 和 latent-space reasoning。

以 DreamZero 为锚点看 World Action Model:从 Dreamer、视频生成规划到机器人零样本策略

以 DreamZero / World Action Models are Zero-shot Policies 为锚点,用小白能懂的人话解释 WAM 的前置脉络、视频-动作对齐机制、后续工作与可研究方向。

Flow Matching 与 Diffusion:区别、联系,以及为什么新一代生成模型越来越偏向 Flow Matching

从概率路径、训练目标、采样动力学和工程优势四个层面解释 Flow Matching 与 Diffusion 的关系:Diffusion 可以看作一类带随机噪声的 score-based 生成过程,而 Flow Matching 更直接学习把噪声分布搬运到数据分布的确定性速度场,因此在训练目标、采样效率、路径设计和大模型工程上更统一、更方便。

大模型预训练与 Mid-training 数据的差距:阶段定位、数据配方与准备方法

系统梳理大模型训练中 pretraining 与 mid-training 的定位差异:预训练数据负责建立通用语言、知识与表征底座,mid-training 数据则作为从通用预训练分布到后训练目标分布的桥梁,面向数学、代码、QA、长上下文、指令与推理等能力做高质量、低比例、强评估闭环的阶段性注入。

DiT(Diffusion Transformer)从数据到训练:一条完整的教学级讲解

从扩散模型的基本训练目标出发,解释 DiT 如何把 noisy image/latent 切成 token,用 Transformer 预测噪声或速度场,并用一个 CIFAR-10 教学版实现串起数据、shape、模块、loss 与采样流程。

实验分析

训练系统与性能复现

Megatron reported TFLOP/s 的真实含义:small SWA、GQA、FP8、CP 与 fused kernel 的分子/分母分析

结合 Liangguang 实际使用的 Megatron 源码,拆解 reported TFLOP/s/GPU 的估算口径,并解释 small SWA、GQA、FP8、Context Parallel 和 fused kernel 分别如何影响 FLOPs 分子与 step time 分母。

复现指南

建站与工具工作流

用 OpenClaw 搭建一个“鼠鼠研究站”同款个人研究网站

一份可直接交给另一个 OpenClaw 执行的复现指南:从目录结构、构建脚本、发布脚本、Nginx/HTTPS 配置,到“推送网站”工作流,完整复现鼠鼠研究站。

重要收藏

按个人重要性 1~5 星收藏
★★★★★★★★★☆★★★☆☆★★☆☆☆★☆☆☆☆
★★★★★ · 主题归档 · 2026-05-13

GPT-5.5、GPT-5.4、Codex、DeepSeek V4 与 GLM-5.1:Benchmark 与价格横向对比

横向比较 GPT-5.5、GPT-5.4、GPT-5.4 mini、GPT-5.3 Codex、GPT-5.2、DeepSeek V4 Pro/Flash 与 GLM-5.1 在 Agent、通用、数学、代码 benchmark 以及 API 价格上的表现。
★★★★★ · 主题归档 · 2026-05-12

Hermes Agent 源码解读:从入口、主循环到 Gateway 的完整架构

基于 /usr/local/lib/hermes-agent 本地源码,系统解读 Hermes Agent 的 CLI、AIAgent 主循环、模型 Provider 路由、工具系统、Skills、Memory、SessionDB、Gateway、多平台适配、Cron、Webhook、Plugin、MCP、TUI、ACP、安全边界和扩展路线。
★★★★★ · 主题归档 · 2026-05-10

Multi-agent 发展历程与最新进展深度调研:从 MAS / DAI 到 LLM Agent Society

从经典分布式 AI/MAS、群体智能、MARL 到 LLM Agent Society,梳理 multi-agent 方向的发展脉络、关键工作、benchmark 与未来研究机会。
★★★★★ · 主题归档 · 2026-05-10

上下文太多为什么会让大模型变笨:长上下文退化、Context Engineering 与科研机会综述

面向初学者和研究选题,系统解释长上下文退化的现象、机制、评测、模型与系统方案,以及它如何连接 RAG、上下文压缩、KV cache、Agent memory、代码智能、长轨迹 RL 和 latent-space reasoning。
★★★★★ · 主题归档 · 2026-05-10

以 DreamZero 为锚点看 World Action Model:从 Dreamer、视频生成规划到机器人零样本策略

以 DreamZero / World Action Models are Zero-shot Policies 为锚点,用小白能懂的人话解释 WAM 的前置脉络、视频-动作对齐机制、后续工作与可研究方向。