主题归档

围绕长期关注方向归档整理的主题笔记。

主题归档

共 20 篇

2026-06-30

Cybench：用 CTF 任务衡量 LLM Agent 的真实网络安全能力

详细解读 Cybench 这个开放网络安全 Agent benchmark：它如何把真实 CTF 任务封装成可执行环境，如何用子任务和人类首解时间衡量能力，以及它对长轨迹 Agent 评测的启发与局限。

benchmark llm-agent cybersecurity evaluation cybench

2026-06-24

ALE Agents' Last Exam：从“会答题”到“会工作”的 Agent Benchmark

Agents' Last Exam 试图把 Agent 评测从知识问答和短交互推进到真实职业工作流、长时程执行和可验证交付物。

llm-agent benchmark agent computer-use research-survey

2026-06-21

GIGPO 与 HGPO：长轨迹 LLM Agent 强化学习里的“分组信用分配”

从 GRPO 到 GIGPO、HGPO，解释为什么长轨迹 Agent RL 需要从整条轨迹奖励走向分层、上下文一致的步级优势估计。

LLM Agent Reinforcement Learning GRPO GIGPO HGPO Credit Assignment

2026-06-21

OpenAI《Reinforcement Learning Towards Broadly and Persistently Beneficial Models》详解：RL 能否训练出更“持久有益”的模型？

详细解读 OpenAI Alignment 团队的 Beneficial Trait RL 论文：为什么从“让模型完成任务”转向“强化有益人格特质”，它如何构造数据、训练模型、验证跨域泛化与对抗持久性，以及这对 RLHF、模型对齐和未来 Agent 训练意味着什么。

alignment reinforcement-learning openai beneficial-ai emergent-misalignment post-training

2026-06-21

PPO 在 Agentic RL 中的应用与进展：从 RLHF 到长轨迹 Agent 训练

梳理 PPO 如何从 RLHF 的标准算法，演化到多轮工具使用、搜索、Web/GUI/代码 Agent 中的 turn-level、sequence-level、trajectory-level 训练框架，并分析它与 GRPO/GIGPO/HGPO 等新算法的关系。

PPO Agentic RL LLM Agent RLHF RLVR GRPO Credit Assignment Post-training

2026-06-19

Web Search Agent 与 Code Agent 的 Agentic RL 演化路径：从“会调用工具”到“会在环境里学习”

基于 Awesome-AgenticLLM-RL-Papers 中 Search & Research Agent 与 Code Agent 两节，梳理 Agentic RL 如何把检索与代码从一次性生成问题推进到长轨迹、可验证、可自我改进的智能体训练问题。

LLM Agent Agentic RL Web Search Agent Code Agent Reinforcement Learning

2026-06-17

Mixture-of-Transformers（MoT）架构详解：把多模态大模型从“一个脑子硬扛所有模态”改成“按模态分工的 Transformer 混合体”

详细解释 Meta 提出的 Mixture-of-Transformers（MoT）架构：它为什么不是普通 MoE，怎样按模态解耦 Transformer 参数、保留全局自注意力，以及为什么能显著降低多模态预训练 FLOPs 和 wall-clock time。

Multimodal Foundation Model Mixture-of-Transformers MoE Sparse Transformer Architecture Pretraining

2026-06-17

从 LUFFY 看 reasoning SFT 的 off-policy 问题：从“背高手答案”到在学生分布上学习

以 LUFFY 为锚点，梳理 reasoning SFT 中 teacher trace 与 student policy 分布错配的问题，以及后续沿 RLVR、OPD、backtracking、agent step-wise distillation 等方向形成的研究现状。

LLM Reasoning Think SFT Off-Policy RLVR OPD Distillation

2026-06-17

从常微分方程、随机微分方程与“场”的角度理解 Flow Matching 和 Diffusion

用统一的动力系统视角解释 Flow Matching 与 Diffusion：ODE 视角把生成理解为确定性速度场搬运概率分布，SDE 视角把 diffusion 理解为带噪声的随机粒子系统，而“场”的视角则把两者统一为概率密度在空间中的连续流动。Flow Matching 直接学习速度场，Diffusion 先构造随机扩散再学习反向 score，两者最终可通过 probability flow ODE 连接起来。

flow matching diffusion ode sde probability flow score matching vector field continuity equation generative model tutorial

2026-06-17

让模型学会回退：LLM Search Trace / Backtracking 研究脉络综述

深度梳理 LLM 中 reflection、search trace、backtracking 与 test-time compute 的研究线：为什么错误轨迹有时有价值，什么时候回退有效，为什么直接 SFT 反思文本不等于学会搜索，以及这条线对 LLM Agent / Code Agent 的启发。

LLM Reasoning Backtracking Search Trace Reflection Test-Time Compute RLVR

2026-06-16

Think SFT 的 Off-Policy 问题：从反思轨迹到 On-Policy Distillation 的研究线

梳理带 think/反思轨迹的 SFT 为什么会有 off-policy 问题，以及从 CoT、搜索轨迹、RL 到 OPD/Agent OPD 的最新研究进展。

LLM Reasoning SFT Off-Policy On-Policy Distillation Agent RL

2026-06-15

LLM + DPO 经典工作、发展脉络与未解问题

系统梳理 DPO 从 RLHF/PPO 替代方案到偏好优化基础组件的发展脉络，分析 IPO、KTO、ORPO、SimPO、Step-DPO、Online DPO 等后续路线，以及 DPO 在 reasoning 与 LLM Agent 场景中的核心瓶颈。

LLM DPO RLHF preference optimization alignment agent

2026-06-15

LLM 指令遵循：经典工作、发展脉络、现状与未解问题

系统梳理 LLM 指令遵循从 prompt、多任务指令微调、RLHF、合成指令数据，到复杂约束评测、指令层级、prompt injection 与 agent 行动合规的发展脉络，并分析当前未解问题与研究机会。

LLM instruction following instruction tuning alignment RLHF agent

2026-06-15

Think / Reasoning 模型的 SFT：和传统指令微调有什么不同？

系统梳理 think/reasoning 模型 SFT 与传统 instruction SFT 的差异，分析 DeepSeek-R1、s1、LIMO、STILL-2、Sky-T1、OpenThoughts、Qwen3 等代表工作，并讨论 long-CoT SFT、cold-start、蒸馏、verifier、RLVR、test-time compute 与 latent reasoning 的关系。

LLM reasoning model think model SFT long-CoT RLVR distillation

2026-06-14

像给小白一样讲清楚：强化学习到底在解什么数学问题

从不动点方程、压缩映射、采样估计、分布漂移和三重耦合出发，用小白能听懂的方式解释强化学习为什么比监督学习难。

强化学习 Bellman方程不动点 RLHF GRPO 数学直觉

2026-06-14

小白版讲解：RL 是不是“全局参数化黑箱优化 + 数值最优控制”？

用小白能听懂的方式拆解 V777 关于强化学习的知乎回答：对偶配对、占据测度、HJB 对偶、Actor-Critic、PPO、single shooting、MPC，以及这套叙事对 LLM Agent 的启发。

强化学习最优控制占据测度对偶优化 PPO MPC LLM Agent

2026-06-11

大模型会反思吗？从 CoT、搜索轨迹到长推理的研究脉络

从 CoT、Self-Consistency、Verifier、ToT/ReAct/Reflexion 到 Stream of Search、Self-Backtracking 与 RL 长 CoT，梳理大模型“反思”和长推理能力到底是什么、哪里有效、哪里会失效，以及未来如何提升。

LLM Reasoning Chain-of-Thought Reflection Test-Time Compute Backtracking

2026-06-04

把 CoT 压成一个统一 think token：从 Pause Token 到潜空间推理的研究脉络

调研“把显式思考过程替换成统一 token，让模型表面输出空白思考、内部完成计算”这一想法的可行性、已有工作和研究机会。

LLM Reasoning Chain-of-Thought Latent Reasoning Test-Time Compute Research Survey

2026-05-24

STaR 与自举式自训练：LLM 能不能自己生成训练数据并训练自己？

从 STaR 到 Quiet-STaR、V-STaR、B-STaR、AdaSTaR、START、STaR-SQL 等系列工作，系统梳理“模型自己生成训练信号再训练自己”这条路线的技术脉络、核心瓶颈与研究机会。

LLM 自训练 STaR 推理合成数据 self-improvement

2026-05-19

ControlNet 小白详解：为什么一张边缘图就能控制 Stable Diffusion 画什么

用小白能听懂的方式，从 Stable Diffusion 为什么难控制讲起，逐步解释 ControlNet 的动机、结构、零卷积、训练与推理流程，并配上伪代码和 diffusers 示例代码。

diffusion controlnet stable-diffusion image-generation tutorial