2026-04-28
On-Policy Distillation 将蒸馏从静态教师数据推进到学生自身行为分布上的密集监督,成为连接 SFT、RLHF、模型合版与 personal agent 自我进化的一条关键技术路线。
2026-04-27
系统梳理大模型预训练数据去重的主流算法脉络,重点解释当前最常用、最有效的 MinHash LSH 近重复去重,以及 ExactSubstr、后缀数组、语义去重和 GPU 加速工具链的适用边界。
2026-04-26
详细拆解 OpenVLA 的技术动机、模型结构、训练数据、动作表示、实验结果、微调部署路径与局限性,解释它为什么是 VLA 路线走向开放可复现的重要节点。
2026-04-26
系统梳理 WAM(World Action Model)截至 2026-04-26 的发展脉络:其前史如何从世界模型、VLA 和视频基础模型三条线汇合而来;每个代表工作相对之前方法解决了什么问题;又引入了哪些新的困难;以及 WAM 当前真正卡在哪里。
2026-04-26
从最基础的随机梯度下降出发,系统梳理 Momentum、AdaGrad、RMSProp、Adam、AdamW、大模型训练中的参数分组与二阶/预条件思想,最后落到 Muon 的核心动机、算法结构、适用边界与未来优化器演化趋势。
2026-04-26
系统梳理机器人基础模型从 RT-1、RT-2、Octo、OpenVLA 等 Vision-Language-Action 路线,如何因动作生成、闭环控制、长时程推理与泛化鲁棒性的瓶颈,进一步演进到 WAM(World Action Model)路线,并分析 WAM 的核心思想、解决的问题及其新挑战。
2026-04-26
梳理具身智能 Sim-to-Real 从精确建模、Domain Randomization、Real2Sim2Real、高性能仿真、Embodied AI Simulator 到生成式仿真和世界模型的研究逻辑与演化。
2026-04-25
系统梳理具身智能从经典机器人控制、深度强化学习、sim2real、模仿学习,到机器人基础模型、VLA 与跨机器人通用策略的发展逻辑,讲清每一阶段在解决什么核心问题。
2026-04-25
系统梳理视频生成从 GAN/VAE 时代、扩散范式崛起、级联与高分辨率、DiT 与大规模开源,到 2026 年多模态音视频联合生成与世界复杂性竞争的发展逻辑。
2026-04-24
系统拆解 DeepSeek V4 技术报告的核心思路,重点分析其 MoE 架构、路由与负载均衡、长上下文优化、训练系统设计、后训练与推理部署上的特色与创新。
topics
**3D / 时空 VAE(Variational Autoencoder)**,可以理解成:
topics
这份笔记从 **CALM(Continuous Autoregressive Language Models)** 出发,先看目前能检索到的引用论文,再按研究方向梳理它之后的一些相关工作。
topics
这个主题关注小米 MiMo 系列公开技术信息,当前重点包括:
topics
截至 2026-03,LLM 领域的 credit assignment 已形成两条主线:其一是“偏好学习主线”(RLHF/RLAIF 与 DPO/IPO/KTO/ORPO/SimPO 等),其核心是把序列级偏好信号转成 token 级可优化目标;其二是“可验证奖励主线”(RLVR、GRPO、过程奖励 PRM、结果奖励 ORM),在数学/代码等可判真任务上显