主题归档

主题归档

围绕长期关注方向归档整理的主题笔记。

主题归档

共 17 篇
2026-04-28

On-Policy Distillation:从模型压缩到 Agent 自我进化的蒸馏范式

On-Policy Distillation 将蒸馏从静态教师数据推进到学生自身行为分布上的密集监督,成为连接 SFT、RLHF、模型合版与 personal agent 自我进化的一条关键技术路线。
LLMAgentReinforcement LearningDistillationSelf-Evolution
2026-04-27

大模型预训练数据准备中的去重算法:从 ExactSubstr 到 MinHash LSH 与语义去重

系统梳理大模型预训练数据去重的主流算法脉络,重点解释当前最常用、最有效的 MinHash LSH 近重复去重,以及 ExactSubstr、后缀数组、语义去重和 GPU 加速工具链的适用边界。
LLM预训练数据数据去重MinHashSemDeDup
2026-04-26

OpenVLA 详解:开源 VLA 如何把视觉语言模型变成机器人策略

详细拆解 OpenVLA 的技术动机、模型结构、训练数据、动作表示、实验结果、微调部署路径与局限性,解释它为什么是 VLA 路线走向开放可复现的重要节点。
roboticsembodied-aivlaopenvlageneralist-policyimitation-learning
2026-04-26

WAM(World Action Model)发展脉络综述:从世界模型到 VLA,再到统一生成与决策

系统梳理 WAM(World Action Model)截至 2026-04-26 的发展脉络:其前史如何从世界模型、VLA 和视频基础模型三条线汇合而来;每个代表工作相对之前方法解决了什么问题;又引入了哪些新的困难;以及 WAM 当前真正卡在哪里。
wamworld-modelroboticsembodied-aivlasurvey
2026-04-26

从 SGD 到 Muon:大模型训练中优化器的演化逻辑、方法细节与未来展望

从最基础的随机梯度下降出发,系统梳理 Momentum、AdaGrad、RMSProp、Adam、AdamW、大模型训练中的参数分组与二阶/预条件思想,最后落到 Muon 的核心动机、算法结构、适用边界与未来优化器演化趋势。
optimizationllmtrainingmuondeep-learningreasoning
2026-04-26

从 VLA 到 WAM:机器人基础模型的演化脉络、关键问题与下一步

系统梳理机器人基础模型从 RT-1、RT-2、Octo、OpenVLA 等 Vision-Language-Action 路线,如何因动作生成、闭环控制、长时程推理与泛化鲁棒性的瓶颈,进一步演进到 WAM(World Action Model)路线,并分析 WAM 的核心思想、解决的问题及其新挑战。
roboticsembodied-aivlaworld-modelwamsurvey
2026-04-26

具身智能 Sim-to-Real 发展脉络综述:从弥合现实差距到构造可规模化的物理经验

梳理具身智能 Sim-to-Real 从精确建模、Domain Randomization、Real2Sim2Real、高性能仿真、Embodied AI Simulator 到生成式仿真和世界模型的研究逻辑与演化。
sim-to-realembodied-airoboticsrobot-learningworld-modelsurvey
2026-04-25

具身智能发展脉络全景梳理:从控制与感知到机器人基础模型

系统梳理具身智能从经典机器人控制、深度强化学习、sim2real、模仿学习,到机器人基础模型、VLA 与跨机器人通用策略的发展逻辑,讲清每一阶段在解决什么核心问题。
embodied-airoboticsimitation-learningreinforcement-learningVLAsurvey
2026-04-25

视频生成发展脉络全景梳理:从早期生成到 2026 世界复杂性竞争

系统梳理视频生成从 GAN/VAE 时代、扩散范式崛起、级联与高分辨率、DiT 与大规模开源,到 2026 年多模态音视频联合生成与世界复杂性竞争的发展逻辑。
video-generationdiffusionautoregressiveworld-modelsurveypapers
2026-04-24

DeepSeek V4 技术报告解读:从架构、训练到系统工程的全面升级

系统拆解 DeepSeek V4 技术报告的核心思路,重点分析其 MoE 架构、路由与负载均衡、长上下文优化、训练系统设计、后训练与推理部署上的特色与创新。
deepseekmoereasoning长上下文系统工程
topics

3D / 时空 VAE 详解

**3D / 时空 VAE(Variational Autoencoder)**,可以理解成:
3Dworld-modelrlvideo
topics

从 CALM 出发:引用论文与后续工作梳理

这份笔记从 **CALM(Continuous Autoregressive Language Models)** 出发,先看目前能检索到的引用论文,再按研究方向梳理它之后的一些相关工作。
video
topics

小米 MiMo 模型设计

这个主题关注小米 MiMo 系列公开技术信息,当前重点包括:
agentrl
topics

目前大模型与 LLM Agent 的 Credit Assignment 研究报告(2023-2026)

截至 2026-03,LLM 领域的 credit assignment 已形成两条主线:其一是“偏好学习主线”(RLHF/RLAIF 与 DPO/IPO/KTO/ORPO/SimPO 等),其核心是把序列级偏好信号转成 token 级可优化目标;其二是“可验证奖励主线”(RLVR、GRPO、过程奖励 PRM、结果奖励 ORM),在数学/代码等可判真任务上显
agentrlreasoning