每日调研 2026-05-02 ★★★★☆ daily AI LLM Agent Code Intelligence Research Briefing

#2026-05-02 AI/LLM 最新论文与研究热点简报

检索时间：2026-05-02 08:00（Asia/Shanghai）
覆盖范围：优先最近 24-48 小时；由于 2026-05-01/04-30 arXiv 与 Hugging Face Daily Papers 内容较多，主体聚焦 2026-04-30 至 2026-05-01，少量纳入 2026-04-29 的高相关论文。
检索来源：Hugging Face Papers、arXiv recent（cs.AI/cs.CL/cs.LG/cs.SE/stat.ML）、GitHub Search。X/Twitter 未作为主来源使用；本次以可验证的论文页、HF、GitHub API 返回结果为准。

#一句话总览

今天最值得关注的主线很清晰：Agent 研究正在从“prompt/workflow 工程”走向“可验证环境 + 长程仿真 + RL/反馈控制 + 自演化 harness/软件体”；同时，latent reasoning + RL 开始出现更直接的算法尝试，代码智能方向则继续向“可验证执行基础设施、记忆控制、结构化 edit format、测试驱动数据工程”收敛。

#重点推荐：最值得 wenjun 关注的 5 条

#1. Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning

链接：https://arxiv.org/abs/2604.27998
来源：arXiv cs.LG/cs.CL
日期：2026-05-01
类别：Latent Reasoning / Post-training RL
一句话核心贡献：将 GRPO 引入 latent reasoning，指出直接在连续潜空间中做 RL 会遇到 latent manifold 缺失、采样机制改变、概率密度建模等耦合瓶颈，并提出面向潜空间推理的稳定化框架。

为什么值得关注： 这篇非常贴合 wenjun 近期关注的“潜空间推理”。以往 latent reasoning 多停留在监督学习或压缩 CoT 的角度，而这篇直接讨论 RL in latent space 的不稳定性，相当于把 DeepSeek/GRPO 式 reasoning RL 的问题迁移到连续 latent 表示中。它的重要性不一定在最终方法是否最优，而在于它清楚提出了 latent reasoning 与 token-level RL 的机制差异。

与 wenjun 研究方向的关系： 如果想研究“agent 的内部 world state / latent thought / compressed belief state 如何通过 RL 学出来”，这篇可以作为算法层起点。尤其适合延伸到 model-based RL for LLM agents：让 agent 不只在文本 action 上学习，也在 latent state/action 上进行规划和 credit assignment。

#2. Rethinking Agentic Reinforcement Learning In Large Language Models

链接：https://arxiv.org/abs/2604.27859
来源：arXiv cs.AI
日期：2026-05-01
类别：LLM Agent / Post-training RL / Model-based RL
一句话核心贡献：综述并重新定义 LLM 时代的 agentic RL，强调开放环境中的目标设定、长期规划、动态策略适应和交互式推理，而不是传统固定 reward、固定 episode 的 RL。

为什么值得关注： 它把“RL for LLM”从数学题、代码题上的 RLVR 扩展到更 agentic 的问题设定。对于 wenjun 关心的 Dreamer/model-based RL for LLM Agent，这类综述可以帮助建立问题空间：环境在哪里、状态如何表示、reward 如何可验证、trajectory 如何复用、长期信用分配如何做。

与 wenjun 研究方向的关系： 可以作为开题/related work 的入口，但需要批判性阅读：真正的研究空白不在“再综述 agentic RL”，而在构造可验证且可扩展的 agent 环境、学习可复用的世界模型/记忆模型，以及把 RL 信号从最终结果拆到计划、工具调用、状态更新等中间层。

#3. Synthetic Computers at Scale for Long-Horizon Productivity Simulation

链接：https://arxiv.org/abs/2604.28181
Hugging Face Papers：https://huggingface.co/papers/2604.28181
来源：arXiv cs.AI/cs.CL/cs.LG，HF Papers
日期：2026-04-30 / HF 2026-05-01 页面收录
类别：LLM Agent / Long-horizon Agent / Environment Design / Synthetic Data
一句话核心贡献：提出大规模构造“合成电脑环境”的方法，包括真实感目录结构和文档/表格/幻灯片等内容，并在这些环境中生成长程办公生产力任务与仿真轨迹。

为什么值得关注： 这篇击中了 agent 训练中的核心瓶颈：缺少足够多、足够真实、又可控的长程环境。相比只生成 instruction-response，这类“电脑环境 + 用户上下文 + 多交付物任务”的合成数据更接近未来 computer-use agent 的训练需求。

与 wenjun 研究方向的关系： 它与“通过环境设计催生自演化智能”高度相关。一个直接研究机会是：能否把 synthetic computer 进一步做成 model-based RL world model 的训练场，让 agent 学会预测文件系统状态变化、用户目标演化、工具调用后果，而不仅是模仿轨迹。

#4. When Continual Learning Moves to Memory: A Study of Experience Reuse in LLM Agents

链接：https://arxiv.org/abs/2604.27003
来源：arXiv cs.LG/cs.AI
日期：2026-05-01
类别：LLM Agent / Continual Learning / Memory
一句话核心贡献：指出外部记忆并没有消除持续学习的稳定性-可塑性矛盾，而是把瓶颈从参数更新转移到有限上下文下的记忆检索竞争，并提出用于拆解经验表示和组织方式的 (k, v) 框架。

为什么值得关注： 当前很多 agent 系统默认“加 memory 就等于持续学习”。这篇提醒我们，真正的问题变成了：哪些经验值得存、如何组织、什么时候检索、检索结果如何不污染当前任务。对于长程 coding/debugging agent，这比简单 RAG 更关键。

与 wenjun 研究方向的关系： 非常适合连接“LLM 持续学习”和“代码 Agent 自演化”。可以进一步研究：memory controller 是否应该用 bandit/RL 学习；经验是否应该被压缩为 latent skill/state；不同任务分布下 memory interference 如何定量评估。

#5. ScaleBox: Enabling High-Fidelity and Scalable Code Verification for Large Language Models

链接：https://arxiv.org/abs/2604.27467
来源：arXiv cs.SE/cs.CL
日期：2026-05-01
类别：Code Agent / Evaluation / RLVR / Systems
一句话核心贡献：提出面向大规模代码训练与评测的高保真、高并发 sandbox/verification 系统，支持 special-judge 自动生成与管理、测试用例级并行执行、多节点协调和可复现实验套件。

为什么值得关注： 代码智能的 RLVR 上限不只取决于算法，也取决于 verification infrastructure。没有可扩展、高保真的执行反馈，agentic coding RL 很难真正放大。ScaleBox 代表了“训练系统/评测系统即研究基础设施”的趋势。

与 wenjun 研究方向的关系： 如果研究 self-evolving code agent 或 agentic RL for code，应该把 verifier/sandbox 视作核心组件，而非工程细节。一个很有价值的问题是：verification system 的 latency、false positive/negative、并发调度如何影响 RL 的 reward noise 和策略学习。

#其他高相关论文与动态

#6. Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

链接：https://arxiv.org/abs/2604.28139
Hugging Face Papers：https://huggingface.co/papers/2604.28139
来源：arXiv / HF Papers
日期：2026-04-30 / HF 2026-05-01 页面收录
类别：LLM Agent / Evaluation / Tool-use
一句话核心贡献：提出 live agent benchmark，将可刷新需求信号与可复现时间戳快照分离，用于评估不断变化的真实工作流任务。
判断：比静态 benchmark 更接近真实 agent 部署，但也会带来 reproducibility 与 leaderboard 稳定性问题。值得关注其任务构造、验证机制和 release snapshot 设计。

#7. Step-level Optimization for Efficient Computer-use Agents

链接：https://arxiv.org/abs/2604.27151
Hugging Face Papers：https://huggingface.co/papers/2604.27151
来源：arXiv / HF Papers
日期：2026-04-29 / HF 2026-05-01 页面收录
类别：LLM Agent / Computer-use Agent / Systems
一句话核心贡献：针对 computer-use agent 长轨迹中每步都调用大模型的低效问题，提出按 step 难度/风险自适应分配计算资源。
判断：与 test-time scaling 的 agent 版本很相关。未来 agent 不应只在 task 级别决定 compute，而应在 step/action/observation 层做动态预算控制。

#8. Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents

链接：https://arxiv.org/abs/2604.27233
来源：arXiv cs.AI/cs.LG/cs.MA
日期：2026-05-01
类别：Tool-use / LLM Agent / Evaluation
一句话核心贡献：把工具调用评估从 post-hoc 移到执行循环内，由 reviewer agent 在工具调用前评估和纠偏，实现 inference-time feedback。
判断：这类方法处在“无需训练的运行时 RL/feedback control”和“多 agent 审查器”之间。值得进一步研究 reviewer 的校准、成本和对主 agent 探索能力的抑制。

#9. Learning When to Remember: Risk-Sensitive Contextual Bandits for Abstention-Aware Memory Retrieval in LLM-Based Coding Agents

链接：https://arxiv.org/abs/2604.27283
来源：arXiv cs.CL/cs.AI/cs.LG
日期：2026-05-01
类别：Code Agent / Memory / Continual Learning
一句话核心贡献：将 coding agent 的 issue-memory 使用建模为风险敏感 contextual bandit，允许 agent 选择不用记忆、注入 top resolution 或采用其他检索策略，避免表面相似导致错误记忆注入。
判断：和第 4 条持续学习 memory paper 形成呼应：一个从理论/系统角度讨论 memory bottleneck，一个给 coding agent 的 retrieval controller 具体建模。

#10. Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses

链接：https://arxiv.org/abs/2604.25850
来源：arXiv cs.CL/cs.SE
日期：2026-04-29
类别：Code Agent / Self-evolving Agent / Tool-use
一句话核心贡献：提出自动演化 coding-agent harness 的闭环方法，通过 component observability、experience observability 和 outcome observability 从大量轨迹中定位可编辑 harness 组件并评估修改效果。
判断：对“self-evolving code agent”非常关键。很多 agent 能力差异来自 harness，而非 base model；让 harness 可观测、可回滚、可学习，是 agent 自演化的一条务实路径。

#11. Self-Evolving Software Agents

链接：https://arxiv.org/abs/2604.27264
来源：arXiv cs.SE/cs.AI
日期：2026-05-01
类别：Self-evolving Agent / Code Agent
一句话核心贡献：结合 BDI reasoning 与 LLM，使软件 agent 能从经验中自动发现新需求，并合成对应的目标、推理与可执行代码更新。
判断：概念上很贴近“自演化软件体”，但需要重点检查实验环境是否足够复杂、代码更新是否真正安全可验证、是否只是 demo-level evolution。

#12. D3-Gym: Constructing Real-World Verifiable Environments for Data-Driven Discovery

链接：https://arxiv.org/abs/2604.27977
来源：arXiv cs.AI/cs.LG
日期：2026-05-01
类别：LLM Agent / Verifiable Environment / Scientific Discovery
一句话核心贡献：构建面向科学数据驱动发现的可验证环境数据集，包含来自真实科学 repo 的任务、可执行环境、输入数据、参考代码和自动合成验证器。
判断：它和 ScaleBox 一起说明：agent RL 的关键资源正在变成“可执行、可验证、可扩展的环境集合”。这比单纯 prompt benchmark 更有训练价值。

#13. ANCORA: Learning to Question via Manifold-Anchored Self-Play for Verifiable Reasoning

链接：https://arxiv.org/abs/2604.27644
来源：arXiv cs.LG/cs.AI/cs.PL
日期：2026-05-01
类别：Post-training RL / Self-play / Verifiable Reasoning
一句话核心贡献：从“学习回答”转向“学习提问”，让统一策略交替作为 Proposer 合成可验证问题、作为 Solver 解题，并用反馈进行自改进。
判断：与环境自生成、curriculum、自博弈相关。可关注其防止题目坍塌、难度控制和 verifier 可靠性的机制。

#14. Co-Evolving Policy Distillation

链接：https://arxiv.org/abs/2604.27083
Hugging Face Papers：https://huggingface.co/papers/2604.27083
来源：arXiv / HF Papers
日期：2026-04-29 / HF 2026-05-01 页面收录
类别：Post-training RL / RLVR / Distillation
一句话核心贡献：分析 mixed RLVR 与先训专家再蒸馏的能力损失问题，提出在专家 RLVR 过程中并行引入 online policy distillation 的 CoPD。
判断：对多能力 reasoning/code/math model 的 post-training 很相关；值得关注它如何缓解不同能力之间的 divergence cost。

#15. Kernelized Advantage Estimation: From Nonparametric Statistics to LLM Reasoning

链接：https://arxiv.org/abs/2604.28005
来源：arXiv cs.LG/stat.ML
日期：2026-05-01
类别：Post-training RL / Reasoning Model
一句话核心贡献：提出 kernelized advantage estimation，试图在 PPO/A2C 的 value network 成本和 GRPO 大量采样成本之间取得折中。
判断：如果成立，它可能改善 reasoning RL 的样本效率和显存/计算开销。建议重点看其估计偏差、复杂度和与 GRPO 的实验对比。

#16. RHyVE: Competence-Aware Verification and Phase-Aware Deployment for LLM-Generated Reward Hypotheses

链接：https://arxiv.org/abs/2604.28056
来源：arXiv cs.AI
日期：2026-05-01
类别：Model-based RL / Reward Design / Post-training RL
一句话核心贡献：把 LLM 生成的 reward 视为 reward hypotheses，研究在不同 policy competence 和训练阶段何时验证、何时部署这些 reward。
判断：对“LLM 生成 reward function”方向很重要。它提醒我们 reward 的有用性不是静态属性，而依赖当前 policy 阶段。

#17. Static Program Slicing Using Language Models With Dataflow-Aware Pretraining and Constrained Decoding

链接：https://arxiv.org/abs/2604.26961
来源：arXiv cs.SE/cs.AI/cs.PL
日期：2026-05-01
类别：Code Intelligence / Pretraining Data / Constrained Decoding
一句话核心贡献：提出 Sliceformer，将静态程序切片建模为 seq2seq 任务，并通过 dataflow-aware pretraining 与 constrained decoding 减少依赖建模错误和幻觉代码片段。
判断：代码模型能力形成机制中，dataflow 预训练仍是关键。可作为“代码数据质量/结构信号如何塑造代码理解能力”的案例。

#18. To Diff or Not to Diff? Structure-Aware and Adaptive Output Formats for Efficient LLM-based Code Editing

链接：https://arxiv.org/abs/2604.27296
来源：arXiv cs.SE/cs.CL
日期：2026-05-01
类别：Code Agent / Code Editing / Systems
一句话核心贡献：系统分析传统 diff format 对 LLM 生成不友好的原因，并提出 BlockDiff、FuncDiff 等结构感知 edit format。
判断：这说明代码 agent 的性能不只取决于模型，也取决于 action representation。对 agentic coding 来说，选择“怎样表达代码修改”就是 action space 设计。

#19. CoRE: A Fine-Grained Code Reasoning Benchmark Beyond Output Prediction

链接：https://arxiv.org/abs/2604.25399
来源：arXiv cs.SE
日期：2026-04-29
类别：Code Intelligence / Evaluation / Reasoning
一句话核心贡献：提出评估代码推理的细粒度 benchmark，不只看最终输出，还看实现不变性和中间执行状态透明度。
判断：适合用来诊断代码模型是否真的理解执行过程，而不是背模式。对训练 process-supervised code reasoner 有参考价值。

#20. Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

链接：https://arxiv.org/abs/2604.24819
来源：arXiv cs.SE/cs.AI
日期：2026-04-29
类别：Pretraining Data / Continual Learning / Evaluation
一句话核心贡献：将数据工程生命周期类比软件开发生命周期，用结构化知识表示同时驱动训练数据和评测，从而诊断训练数据缺陷并进行 test-driven data engineering。
判断：非常契合“预训练数据质量/代码数据质量/数据如何塑造能力”。相比盲目加数据，它强调用测试反馈定位数据缺口。

#21. Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models

链接：https://arxiv.org/abs/2604.27251
Hugging Face Papers：https://huggingface.co/papers/2604.27251
来源：arXiv / HF Papers
日期：2026-05-01
类别：Reasoning Model / Controllability
一句话核心贡献：通过 reasoning conflicts 研究 LLM 的归纳、演绎、溯因等推理模式是否能从具体问题实例中解耦并被控制。
判断：对“推理能力是预训练中共享模式被 CoT 激活，还是可控 schema”这个问题有价值，可作为能力形成机制方向的参考。

#22. MCPHunt: An Evaluation Framework for Cross-Boundary Data Propagation in Multi-Server MCP Agents

链接：https://arxiv.org/abs/2604.27819
来源：arXiv cs.AI
日期：2026-05-01
类别：Tool-use / Agent Safety / MCP
一句话核心贡献：提出多 MCP server agent 中跨边界数据传播的 controlled benchmark，用 canary taint tracking 检测 credential propagation。
判断：MCP/工具生态越复杂，agent 的信息流控制越重要。这是 agent 安全从 prompt injection 走向系统权限拓扑分析的信号。

#23. Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction

链接：https://arxiv.org/abs/2604.27221
来源：arXiv cs.AI
日期：2026-05-01
类别：LLM Agent / Web Agent / Information Extraction
一句话核心贡献：提出双层 multi-agent web-to-table search 框架，上层 orchestrator 分解问题，下层 worker 并行处理实体/来源。
判断：适合关注 agentic search 从“单问题深挖”到“大规模结构化聚合”的转变。对科研调研 agent、数据构建 agent 都有启发。

#GitHub / Repo / Model / Dataset 动态

说明：GitHub Search 以 created:>2026-04-25、关键词 LLM agent、code agent、latent reasoning、RLVR、MCP agent 等检索，并按 stars 排序。以下只列与 wenjun 方向可能相关者；新仓库质量需进一步审查。

#1. browser-use/bux

链接：https://github.com/browser-use/bux
来源：GitHub Search
日期：创建于 2026-04-26
类别：Code Agent / Browser Agent / Harness
一句话核心贡献：一个 “24/7 Claude Code agent with Browser Harness”，强调在自有机器上运行长期 Claude Code/browser harness agent。
跟进理由：与 agent harness、长期运行和本地执行环境相关，适合观察工程化 agent loop 如何设计。

#2. sandeco/reversa

链接：https://github.com/sandeco/reversa
来源：GitHub Search
日期：创建于 2026-04-26
类别：Code Agent / Software Engineering
一句话核心贡献：面向 AI coding agents，将 legacy systems 转换为 executable specifications。
跟进理由：如果该项目真的能把遗留系统转成可执行规格，它与“可验证 reward / 测试驱动代码 agent”高度相关。

#3. warpdot-dev/composio

链接：https://github.com/warpdot-dev/composio
来源：GitHub Search
日期：创建于 2026-05-01
类别：Tool-use / MCP / Agent Tools
一句话核心贡献：面向 AI agents 的 TypeScript/Python SDK 与工具集成层，描述中包含 MCP、OAuth、OpenAI/Anthropic/LangChain/LlamaIndex 等多框架支持。
跟进理由：工具层生态是 agent 能力的基础设施；但需检查是否为真正的新项目、fork/迁移或重建仓库。

#4. varandrew/moor

链接：https://github.com/varandrew/moor
来源：GitHub Search
日期：创建于 2026-04-27
类别：MCP / Tool-use / Agent Safety
一句话核心贡献：本地 MCP control plane，为 coding agent 提供安全、可观测、可配置的 MCP server gateway。
跟进理由：与 MCPHunt 的问题域相呼应。MCP 工具权限、观测和网关化可能成为 coding agent 安全的工程核心。

#5. 7zk1014/Latent_Reasoning_Baselines

链接：https://github.com/7zk1014/Latent_Reasoning_Baselines
来源：GitHub Search
日期：创建于 2026-04-27
类别：Latent Reasoning
一句话核心贡献：latent reasoning baseline 仓库。
跟进理由：stars 目前为 0，质量未知，但可作为潜空间推理实验复现线索。建议仅作为线索，不要直接信任。

#6. xi-xiaoran/coverage-rlvr

链接：https://github.com/xi-xiaoran/coverage-rlvr
来源：GitHub Search
日期：创建于 2026-04-29
类别：RLVR / Post-training RL
一句话核心贡献：面向 finite-support coverage diagnostics 与 verifiable post-training experiments 的代码。
跟进理由：RLVR 的覆盖诊断是一个被低估的问题：可验证 reward 只覆盖了有限任务支持集，模型如何泛化/过拟合值得研究。

#今日最值得精读的 3 篇

Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning

https://arxiv.org/abs/2604.27998

精读理由：直接命中 latent-space reasoning + RL，是 wenjun 近期重点方向中最相关的一篇。

Synthetic Computers at Scale for Long-Horizon Productivity Simulation

https://arxiv.org/abs/2604.28181

精读理由：长程 agent 训练环境和合成数据的关键新方向，可连接 model-based RL/world model for agents。

When Continual Learning Moves to Memory: A Study of Experience Reuse in LLM Agents

https://arxiv.org/abs/2604.27003

精读理由：把 agent 持续学习问题从参数层转到 memory/retrieval 层，适合延展到 coding agent 经验复用和自演化。

备选第 4 篇：ScaleBox（如果今天想偏代码智能/RLVR infra）；第 5 篇：Rethinking Agentic RL（如果想梳理大图）。

#今日最值得跟进的 3 个 repo/model/dataset

browser-use/bux — https://github.com/browser-use/bux

看点：长期运行 browser/coding harness agent，适合观察 agent loop 与执行环境工程。

varandrew/moor — https://github.com/varandrew/moor

看点：MCP control plane；与多工具、多 server agent 的权限、观测、信息流控制相关。

xi-xiaoran/coverage-rlvr — https://github.com/xi-xiaoran/coverage-rlvr

看点：RLVR coverage diagnostics；可能帮助分析 verifiable reward 的支持集覆盖与泛化问题。

如果要选论文配套方向，则优先找 Latent-GRPO / Synthetic Computers / ScaleBox / D3-Gym 的代码或数据是否放出。

#研究机会 / Idea

#Idea 1：把 latent reasoning 做成 agent 的可学习 belief/world state，而不只是 CoT 压缩

Latent-GRPO 说明 latent-space RL 已经开始被直接研究。但对 agent 来说，latent reasoning 更有价值的形态可能不是“把思维链压短”，而是一个可更新的 belief state / world model state：

输入：observation、tool result、memory retrieval；
latent state：压缩后的任务状态、环境状态、用户意图、失败模式；
action：文本回复、工具调用、代码修改、记忆写入；
reward：最终任务成功 + 中间 verifier + state prediction consistency。

可研究问题：GRPO/actor-critic 如何在 latent state/action 上稳定训练？latent state 是否能预测工具调用后果？是否能提高长程 agent 的 credit assignment？

#Idea 2：Agent 持续学习的核心不是“存更多 memory”，而是学习何时拒绝记忆

今天两篇 memory 论文共同指向一个问题：外部记忆会引入新的 interference。尤其 coding agent 中，错误复用历史 debug trace 可能比不用记忆更糟。

可研究一个 abstention-aware memory controller：

用 bandit/RL 学习“用不用记忆、用哪类记忆、压缩到什么粒度”；
reward 不只看成功率，也看误注入风险、上下文预算、修复时间；
评测可放在 SWE-bench 类环境或自建 issue-repair 环境中。

#Idea 3：把 verifier/sandbox 当作 RL 系统的一部分进行联合设计

ScaleBox、D3-Gym、ANCORA、RHyVE 都说明：未来 agent/RL 研究的核心资产是 verifier 和环境，而不是单一 prompt。一个可能的新问题是：

verifier 的延迟、噪声、覆盖率、并发调度策略，会如何影响 agentic RL 的学习动态？

可做方向：

建立 reward noise / verifier coverage 与 policy collapse/overfitting 的关系；
设计分层 verifier：cheap static checks → unit tests → expensive integration tests → human/LLM judge；
对 code agent 研究“什么时候值得运行昂贵测试”，类似 step-level compute allocation。

#附：本次检索限制与可信度说明

arXiv 页面和 Hugging Face Papers 可访问，本文中的 arXiv/HF 链接均来自实际检索结果。
GitHub Search API 可访问，但新仓库存在刷星、迁移、营销标题等噪声；本文只将其作为动态线索，不作为学术结论。
X/Twitter 未作为本次主信息源；为避免不可验证传播，本文优先使用论文页、HF、GitHub 等可直接访问来源。