研究 | 博客

Shanhui Zhao (Tsinghua), Jiacheng Liu (Peking), Guohong Liu (Tsinghua) et al.从源码层面深入剖析 AOHP（Android Open Harness Project）的四层垂直架构、15 组 CLI 命令设计、六阶段 UDAGen 生成管线、五层安全信息流防护，以及 11 个 OpenClaw Skills 的集成方式。本文基于完整项目源码（TypeScript/Java/Python）分析其系统边界、实现机制与设计取舍。

arXiv: 2606.23449 (Technical Report); 源码分析基于 GitHub main 分支

AOHP 源码深度解读：Agent-Native OS 的架构实现与安全机制

AOHP: An Open-Source OS-Level Agent Harness for Personalized, Efficient and Secure Interaction

Agent 架构操作系统Agent 安全源码分析

Mengyu Zheng, Kai Han, Boxun Li et al.TokenRhythm 与 Infinigence AI 提出 Claw-SWE-Bench，一个多语言 SWE-bench 风格基准和适配器协议，将通用 Agent 框架（OpenClaw、Hermes、ZeroClaw 等）约束到相同的执行合约下公平比较。实验揭示一个关键事实：固定模型下，仅改变 Agent 框架可产生最高 27.4 pp 的 Pass@1 差距——与相邻模型层级带来的差距相当甚至更大，这说明框架本身是一等的因果变量，不该被隐藏在模型分数背后。

arXiv 2606.12344

Claw-SWE-Bench：让通用 Agent 框架在编程任务上可比较

Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks

Agent 架构基准测试软件工程

Yunpeng Dong, Jingkai He, Yuze Hou et al.深度解读 DeltaBox（上海交大 IPADS + 华为）：通过 DeltaFS 动态 OverlayFS 和 DeltaCR 增量模板 fork，将 Agent 沙箱 C/R 降至毫秒级。分析技术实现、实验验证、与 CubeSandbox/ZeroBoot 的对比，以及网络 I/O 回滚、分布式快照、GPU 状态管理等未来演进方向。

arXiv 2605.22781

DeltaBox：面向 AI Agent 的毫秒级沙箱状态快照与回滚

DeltaBox: Scaling Stateful AI Agents with Millisecond-Level Sandbox Checkpoint/Rollback

Agent 架构操作系统AI Agent

Jian Fang, Yingfei Xiong这篇论文探索了一个大胆的想法：不让 LLM 直接生成可能隐含 bug 的代码，而是让它生成受机器检查的证明——用 Rocq（前 Coq）定理证明器作为后端，全自动地生成一个覆盖 RISC-V RV32I 全部 47 条指令的 CPU 解释器，并将其提取为可运行的 C++ 代码。结果在 30 分钟内完成，生成 1,859 行受验证的 Rocq 代码，提取出 2,848 行 C++，全部 265 个测试通过，12 小时 AFL++ fuzzing 零崩溃。对比实验显示 Dafny 后端在同等条件下无法完成验证，核心差异在于 ITP 的显式证明状态提供了可操作的修复信号。

arXiv 2026

SPDDWL：用交互式定理证明器做 LLM 受验证软件项目生成

Trustworthy Software Project Generation: a Case Study with an Interactive Theorem Prover

形式化验证Agent 架构AI Agent

Varun Pratap Bhardwaj首个为 AI Agent 编排构建的应用层操作系统，支持 12 种多 Agent 拓扑、10 个 LLM 提供商、8+ 框架，集成质量保障管道、成本路由和 24 标签页仪表板。

arXiv

Qualixar OS：AI Agent 编排的通用操作系统

Qualixar OS: A Universal Operating System for AI Agent Orchestration

Agent 架构多智能体操作系统

Edoardo Allegrini, Ananth Shreekumar, Z. Berkay Celik本文针对当前 AI 智能体协议碎片化问题，提出宿主智能体模型与任务生命周期模型，为多 AI 智能体系统提供统一的语义框架，并形式化定义了 30 个关键属性（16 个宿主智能体属性 + 14 个任务生命周期属性），涵盖活性、安全性、完整性与公平性四大类别。

arXiv

形式化智能体AI系统的安全性与功能性属性

Formalizing the Safety, Security, and Functional Properties of Agentic AI Systems

形式化验证多智能体Agent 安全

Zhaorun Chen, Mintong Kang, Bo Li当 LLM Agent 在网页购物、股票交易、代码执行中穿行，谁来保证它们不越界？ShieldAgent 的答案是：再造一个 Agent 来专门「盯着」它——用概率规则电路做形式化验证，而不是凭感觉拒绝。这比简单的提示词护栏强在哪？本文带你拆解它的架构与数据。

ICML 2025 (arXiv 2503.22738)

用一个 Agent 守护另一个 Agent：ShieldAgent 的形式化安全防护

ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning

AI AgentAgent 安全形式化验证Agent 架构

DeerFlow ContributorsDeerFlow 最值得看的，不是它又接了多少模型，而是它把一个智能体系统拆成了 Web 入口、可复用 harness、sandbox、subagent、skills、MCP 与 guardrails 这些清晰边界。它不像许多 demo 那样把一切堆进主循环，而是试图把 Agent 做成一套可以治理、可以扩展、也可以嵌入别的应用的运行时。

Codebase Analysis

DeerFlow 架构解剖：它不是一个聊天壳，而是一套可拼装的 Agent Runtime

DeerFlow Architecture Analysis: A Composable Agent Runtime

Agent 架构

Ali Dehghantanha, Sajad Homayoun这篇 SoK 并不发明某个新护栏，而是做了一件更根本的事：把 Agentic AI 的安全问题拆成一张可以审计、可以度量、可以接入工程流水线的地图。论文围绕工具调用、RAG、长期记忆与多智能体协作，梳理了攻击目标、攻击路径、信任边界与评估指标，试图把“智能体不安全”从一种直觉，变成一套系统工程语言。

arXiv 2603.22928

Agentic AI 的攻击面：工具、RAG 与自主性的系统安全地图

SoK: The Attack Surface of Agentic AI -- Tools, and Autonomy

AI AgentAgent 安全多智能体

Bin Fang基于 ZeroClaw、OpenClaw、IronClaw、NanoBot、NanoClaw 与 PicoClaw 六个项目的源码级分析，本文比较它们在运行时架构、安全隔离、扩展机制、性能与推荐场景上的差异，并提炼出智能体系统设计的几条共性规律。

Codebase Analysis

Claw 系列智能体洞察：六个项目的架构、安全与扩展性对比

Claw Agent Family Insights: A Comparative Study of Architecture, Security, and Extensibility

AI Agent多智能体操作系统安全架构

Le Chen, Zichang Wang, Wenxin Zheng et al.上海交大研究团队通过分析近 10 万条真实 Skill 数据，提出 Skill 已成为 LLM Agent 时代的新型「应用」，并由此引出一个新的系统抽象：Skill OS——一个将 Skill 作为一等执行实体进行管理的操作系统层。

Preprints.org

Skills Are the New Apps — 论 Skill OS 的必然崛起

Skills Are the New Apps – Now It's Time for Skill OS

AI Agent操作系统Agent 架构

Varun Pratap Bhardwaj本文将传统软件工程中的「设计契约（Design by Contract）」范式引入 AI Agent 领域，提出 ABC 框架——通过前置条件、不变量、治理策略和恢复机制四元组，在运行时对 LLM Agent 的行为进行数学级约束与监督。实验表明，有合约的 Agent 可将行为漂移控制在 D* < 0.27，检出无合约基线完全漏掉的 5.2–6.8 个软违规/会话，运行开销不超过 10ms。

arXiv

Agent Behavioral Contracts：为 AI Agent 带来设计契约

Agent Behavioral Contracts: Formal Specification and Runtime Enforcement for Reliable Autonomous AI Agents

AI Agent形式化验证多智能体

Agent 规范与安全14 篇

系统梳理 2025-2026 年形式化验证与 AI Agent 交叉领域的 15 篇代表性工作，按五大研究方向分类：运行时安全约束、语义框架与安全属性、Agent 驱动形式化验证、形式化方法引导多智能体学习、愿景与挑战。揭示「反馈质量大于验证能力」「行为漂移是本质属性」「多 Agent 可靠性乘积退化」等关键洞察。

Survey

形式化验证与 AI Agent 结合：工作分类与总结

Formal Verification Meets AI Agents: A Survey and Taxonomy

形式化验证AI AgentSurveyAgent 安全

Juhee Kim, Xiaoyuan Liu, Zhun Wang et al.Dawn Song 团队提出的首个 AI Agent 安全 SoK：七维设计空间、六类攻击向量、七种安全风险、五大防御类别，以及 AutoGPT 五个 CVE 的深度案例研究。论文系统性地将传统安全原则（CIA 三元组、最小权限、纵深防御）与 AI Agent 特有的灵活性-安全权衡相结合，构建了理解 Agent 安全风险与防御策略的基础框架。

arXiv 2603.11088

Agentic AI 的攻击与防御全景：系统性综述

The Attack and Defense Landscape of Agentic AI: A Comprehensive Survey

Agent 安全SoK攻击与防御纵深防御

Nay Myat Min, Long H. Pham, Yige Li et al.LLM 可在概念层级（意识形态、公众人物）表现出隐蔽的语义偏移，这种 token 级安全审计无法检测的行为被 RAVEN 框架通过语义熵与跨模型分歧联合审计成功识别，9/12 个敏感话题中检出异常，为 AI 安全评估提供了新的概念级审计维度。

ICLR 2026

PropagandaAI：大语言模型的语义偏移分析与黑盒审计框架

PropagandaAI: An Analysis of Semantic Divergence in Large Language Models

Agent 安全

Wenjie Qu, Ming Xu, Peiran Wang et al.NUS、UCLA、UC Berkeley 联合立场论文，提出 LLM Agent 安全的根本缺失——没有定义「什么算安全」的正确性标准。借鉴 CompCert 语义保持的思想，论文将 Agent 安全形式化为 intent-to-execution integrity 这一端到端正确性性质，从两个根本问题源（不可信数据摄入与不可信工具执行）推导出四条完整性性质。评估 11 个现有防御系统后发现：没有任何系统实现全覆盖，Judgment Integrity 是最被忽视但最关键的缺口。

arXiv (Position Paper)

LLM Agent 安全需要一个「Intent-to-Execution」端到端正确性定义

Securing LLM Agents Need Intent-to-Execution Integrity

Agent 安全AI Agent形式化验证

Vincent Siu, Jingxuan He, Kyle Montgomery et al.UC Santa Cruz/UC Berkeley/Duke 联合提出 LLM Agent 安全的形式化框架，将 Agent 安全定义为情境属性而非内容属性。四个安全性质（任务对齐、动作对齐、来源授权、数据隔离）加五个 Oracle 函数，彻底重新形式化了间接提示注入、直接提示注入、越狱、困惑代理等九类攻击，并系统揭示现有防御的结构性盲点——本质是对 Oracle 函数近似质量不足，而非努力不够。

arXiv

形式化 LLM Agent 安全：情境感知的四维框架

A Framework for Formalizing LLM Agent Security

AI AgentAgent 安全形式化验证

Ying Li, Hongbo Wen, Yanju Chen et al.UCLA + UCSB + UCSD 联合提出 SEFZ，一种目标导向的语义模糊测试框架，自动发现 Agent Skill 中的规范违规——良性用户输入即可触发 Skill 违反自身声明的安全护栏。在 OpenClaw 市场场的 402 个真实 Skill 中，120 个（29.9%）存在规范违规，包含 26 个已部署 Skill 中的零日漏洞。

arXiv 2605.13044

SEFZ：无需攻击即可发现的 Agent Skill 规范违规

No Attack Required: Semantic Fuzzing for Specification Violations in Agent Skills

AI AgentAgent 安全

Changyue Jiang, Wenqi Zhang, Xudong Pan et al.复旦大学团队在 ICML 2026 发表 Thought-Aligner，提出一种面向 LLM Agent 的轻量级即插即用安全模块，在 Agent 执行危险操作前因果性地修正其不安全思维，将安全率从约 50% 提升至约 90%，超过现有护栏方法约 23 个百分点，同时保持任务有用性。模型仅需 1.5B 参数，单步延迟低于 100ms。

ICML 2026 (PMLR 306)

三思而后行：Thought-Aligner 与 Agent 行为安全思维矫正

Think Twice Before You Act: Enhancing Agent Behavioral Safety with Thought Correction

Agent 安全

Zonghao Ying, Xiao Yang, Siyang Wu et al.本文系统分析了 OpenClaw（代号 Lobster）生态系统的全方位安全威胁，提出了三层风险分类法（AI认知层、软件执行层、信息系统层），并设计了 FASA 全生命周期 Agent 安全架构。作为工程实践，Project ClawGuard 旨在将这一防御蓝图落地为可运行的系统。

arXiv

ClawGuard：OpenClaw 安全威胁与全生命周期防御架构

Uncovering Security Threats and Architecting Defenses in Autonomous Agents: A Case Study of OpenClaw

Agent 安全

Rohan Sequeira, Stavros Damianakis, Umar Iqbal et al.Agent-Sentry 是一个通过执行溯源（Execution Provenance）来约束 LLM Agent 行为的框架。核心思想是：Agent 系统应为特定用例设计，无需暴露无界限的功能。该框架通过学习系统的典型行为模式，构建行为边界，并阻止偏离边界或意图不匹配的 tool 调用。

arXiv

Agent-Sentry：通过执行溯源约束 LLM Agent

Agent-Sentry: Bounding LLM Agents via Execution Provenance

Agent 安全AI Agent

Jiahao Liu, Bonan Ruan, Xianglin Yang et al.Agent 安全的重点正从模型层面的对齐训练，转向对执行轨迹的实时监控。TraceAegis 的核心思路来自软件系统安全：把 Agent 的工具调用序列视为一个程序，从中提取层次结构约束和行为规则，在运行时检测偏离。这种方法不依赖对 LLM 本身的修改，也不需要预先定义详尽的规则。

arXiv:2510.11203

TraceAegis: 用溯源分析守护 Agent —— 层次化行为异常检测的实践

TraceAegis: Securing LLM-Based Agents via Hierarchical and Behavioral Anomaly Detection

AI AgentAgent 安全

Zenghao Duan, Yuxin Tian, Zhiyi Yin et al.本文提出 SkillAttack，首个针对 LLM Agent Skills 的闭环自动化红队测试框架。与依赖恶意指令注入的传统攻击不同，SkillAttack 专注于挖掘非恶意 Skills 中潜藏的漏洞，仅通过对抗性提示即可实现利用。在 10 个 LLM、71 个对抗性 Skills 和 100 个真实世界 Skills 上的实验表明，SkillAttack 的 ASR 达到 0.73-0.93，远超现有基线方法。

arXiv:2604.04989

SkillAttack: 通过攻击路径细化对 Agent Skills 进行自动化红队测试

SkillAttack: Automated Red Teaming of Agent Skills through Attack Path Refinement

Agent 安全AI Agent

Bowen Wei, Yunbei Zhang, Jinhao Pan et al.你以为把大模型训练得足够「有安全意识」就够了吗？CLAWSAFETY 用 120 个精心设计的对抗场景和 2,520 次沙箱试验告诉你：当模型坐进 Agent 的座舱，被赋予写文件、发邮件、执行代码的权力，原来的安全性只剩下一层薄薄的假象。

arXiv 2604.01438

「安全」的大模型，不安全的 Agent：CLAWSAFETY 基准测试揭示的现实

ClawSafety: "Safe" LLMs, Unsafe Agents

AI AgentAgent 安全基准测试

Simon Sinong Zhan, Philip Wang, Justin Liu et al.当大模型驱动的机器人进入厨房、客厅，它究竟有多安全？SENTINEL 首次将时态逻辑（LTL/CTL）引入具身智能体安全评估，构建语义层、计划层、轨迹层三级递进验证框架，用形式化方法代替经验判断，在 VirtualHome 和 AI2-THOR 上系统测评了 GPT-5、Claude Sonnet-4、DeepSeek 等主流模型。

arXiv 2510.12985

SENTINEL：用时态逻辑评估具身智能体的物理安全

SENTINEL: A Multi-Level Formal Framework for Safety Evaluation of Foundation Model-based Embodied Agents

AI Agent具身智能形式化验证Agent 安全

Haoyu Wang, Christopher M. Poskitt, Jun Sun新加坡管理大学提出的 AgentSpec 是一个轻量级领域特定语言（DSL），用于在运行时对 LLM Agent 的行为进行可定制安全约束执行。它通过 trigger-check-enforce 三段式规则拦截 Agent 的关键执行点，在代码执行、具身智能和自动驾驶三个领域实现超过 90% 的风险拦截率，同时运行时开销仅为毫秒级。论文发表于 ICSE 2026，并已开源。

ICSE 2026 (IEEE/ACM International Conference on Software Engineering)

AgentSpec：用 DSL 在运行时管住 LLM Agent 的安全边界

AgentSpec: Customizable Runtime Enforcement for Safe and Reliable LLM Agents

Agent 安全形式化验证AI Agent

形式化验证11 篇

2014

arXiv

HyperLTL 与 HyperCTL*：能表达安全策略的时序逻辑

Temporal Logics for Hyperproperties

Michael R. Clarkson, Bernd Finkbeiner, Masoud Koleini et al.Clarkson 与 Finkbeiner 等人 2014 年提出的 HyperLTL/HyperCTL*，把 LTL/CTL* 从单条执行路径推广到路径集合，首次让非干扰、观测确定性、降密等安全超性质可以被统一地形式化与自动验证。

形式化验证时序逻辑信息安全超性质

2019

ICML 2019

CoqGym: 通过与证明助手交互学习定理证明

Learning to Prove Theorems via Interacting with Proof Assistants

Kaiyu Yang, Jia DengPrinceton 团队构建了大规模定理证明数据集 CoqGym（71K 人工证明，123 个 Coq 项目），并提出 ASTactic 模型，通过 TreeLSTM 编码 + GRU 解码生成 tactic AST，将定理证明成功率从 4.9% 提升至 30.0%（结合 hammer），首次将 AST 生成引入交互式定理证明。

定理证明形式化验证神经符号

Yuriy Brun, Saikat Chakraborty, Claire Le Goues et al.本文解读 Brun 等人发表于 ACM TOSEM 的研究路线图，提出利用 AI 自动化构建可信软件的三叉戟方法：规约合成、代码合成与证明合成。论文系统梳理了从自然语言意图到形式化规约、从规约到可验证代码、从代码到机器可检查证明的完整链条，并指出了各阶段及集成层面的关键挑战。

ACM Transactions on Software Engineering and Methodology (TOSEM)

自动化构建可信软件：三叉戟研究路线图

Automatically Engineering Trusted Software: A Research Roadmap

形式化验证自动程序合成可信软件神经符号方法

2010

Computer Science Review (Elsevier)

线性时序逻辑符号模型检测：从理论到实践的完整剖析

Linear Temporal Logic Symbolic Model Checking

Kristin Y. RozierNASA Ames Research Center 的 Kristin Y. Rozier 于 2010 年发表的综述论文，系统梳理了 LTL 符号模型检测从 1977 年到 2009 年的完整发展脉络，涵盖系统建模、时序逻辑规范、LTL 到 Büchi 自动机转换、BDD 符号表示、非空性检查与反例生成的全流程算法，并以自动化空中交通管制系统为贯穿全文的真实案例。

形式化验证Model CheckingLTLBDD

Marta Kwiatkowska, Gethin Norman, David Parker牛津大学 Kwiatkowska 团队的 25 年回顾综述，系统梳理概率模型检验在九大应用领域的演进路径——从随机分布式算法验证到机器人控制器合成，从生物过程建模到人类行为分析。本文解析 DTMC、MDP、CTMC 等核心模型的适用边界，以及 PCTL、CSL、LTL 三大时序逻辑的表达力谱系。

arXiv

概率模型检验：应用与趋势

Probabilistic Model Checking: Applications and Trends

形式化验证概率模型检验马尔可夫决策过程

Haoran Ding, Zhaoguo Wang, Haibo Chen上海交大提出 FM-Agent，首个利用 LLM 实现大规模系统自动化组合式验证的框架。在 143k LoC 规模系统中发现 522 个新 bug。

arXiv

FM-Agent：用 LLM 把形式化验证 Scale 到大厂级别代码库

FM-Agent: Scaling Formal Methods to Large Systems via LLM-Based Hoare-Style Reasoning

形式化验证基础模型程序分析

Shuvendu K. Lahiri当 AI 可以写代码，谁来确保它真正做了你想要的事？微软研究院 Shuvendu Lahiri 论证核心挑战是意图形式化——将模糊的人类意图转化为可检查的正式规约。从测试到 DSL 的四层谱系，TiCoder 的交互式实践，以及自动化度量揭示人类评审遗漏的缺陷——这篇立场论文定义了 AI × 形式方法 × HCI 的研究议程。

arXiv 2026

意图形式化：AI代理时代可靠编程的重大挑战

Intent Formalization: A Grand Challenge for Reliable Coding in the Age of AI Agents

AI Agent形式化验证代码生成规范工程

Filip Bártek, Ahmed Bhayat, Robin Coutelier et al.这篇 CAV 2025 工具论文不是一次功能罗列，而是一次系统性回顾：Vampire 如何在保留 superposition / saturation 主循环的同时，把 ALASCA 算术、归纳、FOOL、多态逻辑、AVATAR、SAT/SMT 委派与 Spider 调度组织进统一架构。论文最有价值的地方，不是某个局部技巧，而是证明量词推理、ground theory reasoning 与策略学习可以被清晰分层、协同求解并长期演化。

CAV 2025

The Vampire Diary：Vampire 作为面向软件验证的统一推理平台

The Vampire Diary

形式化验证

Abdalrhman Mohamed, Tomaz Mascarenhas, Harun Khan et al.这篇来自 Stanford、Iowa 与 UFMG 等机构的工作，试图把 Lean 中长期缺位的一类自动化补上：把一部分证明目标翻译成 SMT-LIB，交给 cvc5 生成 CPC 证明，再把证明逐步回放成原生 Lean 证明。它的价值不只在于自动化提速，更在于用较小可信基验证外部求解器的证明产物。

CAV 2025

Lean-SMT：给 Lean 接上一台会出证明的 SMT 引擎

Lean-SMT: An SMT tactic for discharging proof goals in Lean

形式化验证

Qingyuan Liu, Mo Zou, Hengbin Zhang et al.这篇 FAST 2026 最佳论文提出了一个很大胆、也很克制的主张：与其让 LLM 直接从模糊提示词里“猜”出文件系统，不如先把功能、模块边界和并发协议写成结构化规范，再让模型负责生成实现。作者用 SYSSPEC 生成了 45 个模块、约 4300 行 C 代码的 SpecFS，并把 AtomFS 模块生成准确率推到 100%，还能用 DAG 化 spec patch 无缝接入 10 个 Ext4 特性。

USENIX FAST '26

SpecFS：把文件系统从“写代码”变成“写规范”

Sharpen the Spec, Cut the Code: A Case for Generative File System with SYSSPEC

操作系统AI Agent形式化验证

Bodhisatwa Chatterjee, Drew Zagieboylo, Sana Damani et al.来自佐治亚理工、NVIDIA Research 和斯坦福的联合研究：当 LLM 大量自动生成 GPU 内核代码时，如何保证这些代码真的是安全正确的？ProofWright 给出了一个用 AI Agent 驱动形式化验证的完整方案。

J. ACM

ProofWright：用 AI Agent 给 LLM 生成的 CUDA 代码做形式化验证

ProofWright: Towards Agentic Formal Verification of CUDA

形式化验证GPU/CUDAAI Agent

LLM 驱动的系统设计4 篇

Rui Shao, Wei Li, Lingsen Zhang et al.这篇来自哈工大深圳的综述首次对大VLM驱动的VLA模型进行了系统的分类学梳理。文章提出两大核心架构范式：单体模型（单一系统与双系统）将感知、推理和动作统一在端到端框架中；层级模型则通过可解释的中间表示（子任务、关键点、程序、可供性）解耦规划与执行。此外，文章还深入探讨了强化学习整合、免训练优化、人类视频学习和世界模型集成四大前沿方向，为VLA研究的未来发展绘制了清晰路线图。

arXiv

大VLM驱动的VLA模型：机器人操作的范式革新

Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey

VLA基础模型机器人

Roya Firoozi, Johnathan Tucker, Stephen Tian et al.来自 Stanford、Google DeepMind、Princeton 等顶级机构的 33 页综述，全面梳理了 LLM、VLM、VNM 等基础模型在机器人感知、决策、任务规划和具身 AI 中的应用。论文覆盖 200+ 篇参考文献，从技术细节到宏观挑战进行了系统性分析，并指出了数据稀缺、实时性、安全评估等关键瓶颈。

IJRR 2025 / arXiv 2312.07843

机器人学中的基础模型：应用、挑战与未来

Foundation Models in Robotics: Applications, Challenges, and the Future

基础模型机器人

Muhammad Tayyab Khan, Ammar Waheed来自南洋理工大学和德州农工大学的综述，从系统集成的视角审视了 LLM 与 VLM 在机器人感知、规划、控制和交互中的全栈应用。论文覆盖仿真驱动设计、开放世界执行、Sim-to-Real 迁移和自适应机器人四大前沿方向，并深入分析了实时性、数据稀缺、安全可靠性等核心瓶颈。

arXiv 2507.10087

基础模型驱动机器人学：综合性综述

Foundation Model Driven Robotics: A Comprehensive Review

基础模型机器人Sim-to-Real

Chao Xu, Suyu Zhang, Yang Liu et al.Vision-Language-Action(VLA)模型正在引发机器人领域的革命。本文提供了一份VLA领域的结构化指南，以金字塔式框架组织：从构成任何VLA模型的基础模块出发，追溯VLA发展史上的关键里程碑，最后深入剖析定义当前研究前沿的五大核心挑战——多模态对齐、指令执行、泛化适应、安全可解释性以及数据评估。文章不仅适合新手建立系统认知，也为资深研究者提供了战略性的未来方向指引。

arXiv

VLA模型解剖学：从模块到里程碑与挑战

An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges

VLA具身智能基础模型

具身智能29 篇

Mohammad Taufeeque, Stefan Heimersheim, Adam Gleave et al.FAR.AI 的研究者构建了一个真实的编程 RLVR 环境，系统分析了用白盒欺骗检测器（线性探针）作为训练信号时模型的四种行为模式：诚实、赤裸欺骗、混淆策略与混淆激活。实验覆盖 Llama-3-8B 到 70B 四个模型，发现充分的 KL 正则化结合探测器惩罚可以稳定获得诚实策略，但配置不当会导致模型学会蒙骗探针。论文还从理论上证明策略梯度方法不会直接激励激活层面的混淆——这是表征漂移的自然结果。

ICML 2026

混淆图谱：用欺骗探针在 RLVR 中追踪诚实如何涌现

The Obfuscation Atlas: Mapping Where Honesty Emerges in RLVR with Deception Probes

AI 安全与对齐强化学习欺骗检测可解释性

Xinqing Li, Xin He, Le Zhang et al.世界模型是具身智能体理解物理世界的核心组件——它们作为内部仿真器捕获环境动力学，支持前向预测、反事实推理和基于想象的决策。这篇来自南开大学等机构的综述提出了一个统一的三维分类框架：功能维度（决策耦合vs通用目的）、时间维度（序列仿真推理vs全局差异预测）、空间维度（全局潜向量/Token序列/空间潜网格/分解渲染表示）。文章全面覆盖机器人、自动驾驶和通用视频三大领域，为世界模型研究提供了迄今最系统的地图。

arXiv

具身AI世界模型综述：三维分类框架与前沿挑战

A Comprehensive Survey on World Models for Embodied AI

世界模型具身智能强化学习

2021

IEEE TNNLS / arXiv 2108.11544

视觉语言导航：综述与分类体系

Vision-Language Navigation: A Survey and Taxonomy

Wansen Wu, Tao Chang, Xinmeng Li et al.这篇发表于 IEEE TNNLS 的综述首次系统梳理了视觉语言导航（VLN）任务，提出基于语言指令特征的全新分类法：单次指令 vs 多轮指令，目标导向 vs 路径导向，被动式 vs 交互式，并深入分析了数据集、仿真器、主流方法与未来机遇。

视觉语言导航具身智能

Kento Kawaharazuka, Jihoon Oh, Jun Yamada et al.本文提供了一份面向真实世界机器人部署的VLA全栈综述。来自东京大学、牛津大学和UT Austin的研究者系统性地梳理了VLA的设计策略演进、模态处理技术、训练范式、数据采集策略和评估基准。文章以实践者为中心，不仅涵盖模型架构，更深入讨论了机器人平台选型、遥操作数据采集和数据增强等工程细节，是VLA从实验室走向真实应用的实用指南。

arXiv

VLA模型赋能真实世界机器人：全栈综述

Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications

VLA机器人具身智能

Tian-Yu Xiang, Ao-Qun Jin, Xiao-Hu Zhou et al.来自中科院自动化所团队的独特视角综述，以 Newell 的约束主导理论为框架，将 VLA 后训练方法与人类运动学习进行体系化对比。论文将后训练方法分为环境感知增强、实体意识提升、任务理解深化和多组件集成四类，并整合了 LIBERO、CALVIN 等标准基准上的对比实验，提出了可操作的后训练指南。

arXiv 2506.20966

VLA 后训练与人类运动学习的平行类比

Parallels Between VLA Model Post-Training and Human Motor Learning

VLA后训练机器人

Yueen Ma, Zixing Song, Yuzheng Zhuang et al.这篇发表于 IEEE TNNLS 的综述是首批系统梳理 VLA 模型的工作之一。论文提出三层分类体系：VLA 组件、低层控制策略和高层任务规划器，涵盖预训练视觉表示、世界模型、Transformer/扩散/3D 视觉控制策略，以及端到端与模块化任务规划器，并讨论了数据集、基准与未来挑战。

IEEE TNNLS / arXiv 2405.14093

面向具身 AI 的视觉-语言-动作模型综述

A Survey on Vision-Language-Action Models for Embodied AI

具身智能VLA机器人

Ranjan Sapkota, Yang Cao, Konstantinos I. Roumeliotis et al.本文系统综述了VLA模型从分离式多模态系统到统一感知-推理-控制框架的演进历程，涵盖超过80个VLA模型的架构创新、训练策略、实时推理加速，以及在自动驾驶、医疗机器人、工业制造、精准农业等领域的应用。

arXiv

Vision-Language-Action模型：概念、进展、应用与挑战

Vision-Language-Action (VLA) Models: Concepts, Progress, Applications and Challenges

具身智能VLA模型多模态AI

Sicong Jiang, Zilin Huang, Kangan Qian et al.来自麦吉尔大学、清华大学、威斯康星大学等机构的首篇 VLA4AD 综述，系统梳理了从传统端到端架构到 VLA 范式的演进，对比了 20+ 代表性模型，并整合了数据集、基准和评估协议。论文指出 VLM 增强了语义推理但留下"动作鸿沟"，VLA 是实现感知-推理-控制统一闭环的关键。

arXiv 2506.24044

自动驾驶中的 VLA 模型综述

A Survey on Vision-Language-Action Models for Autonomous Driving

自动驾驶VLA多模态

Yifan Zhong, Fengshuo Bai, Shaofei Cai et al.来自北京大学 PKU-PsiBot 联合实验室的 70 页重磅综述，提出以动作 Token 化为统一框架理解所有 VLA 模型。论文将动作 Token 分为八类——语言描述、代码、可供性、轨迹、目标状态、隐表示、原始动作和推理——并深入分析了各自的优劣与协同关系，是理解 VLA 领域全貌的必读之作。

arXiv 2507.01925 / PKU-PsiBot

VLA 模型综述：动作 Token 化视角

A Survey on Vision-Language-Action Models: An Action Tokenization Perspective

VLA具身智能动作Token化

Adilzhan Adilkhanov, Amir Yelenov, Assylkhan Seitzhanov et al.这篇 arXiv 论文已被管理员撤回，原因系严重违反 arXiv 投稿政策。其正文由大语言模型生成，内容混杂且缺乏可靠引用。本文基于 arXiv 摘要和 PDF 提取内容，说明该论文的状态，并补充 VLA 模型的通用背景、典型架构与发展脉络，供读者参考。

arXiv 2502.06851（已撤回）

Vision-Language-Action 模型调研：一份被撤回的 AI 生成综述

Survey on Vision-Language-Action Models

具身智能VLA

Joohwan Seo, Soochul Yoo, Junwoo Chang et al.本文以教程形式系统介绍了SE(3)-等变深度学习与控制在机器人领域的应用，从群论和李群数学基础出发，涵盖等变神经网络设计（群卷积、可导性、图卷积），以及在模仿学习、强化学习、感知控制和几何控制中的具体应用，揭示了对称性利用对数据效率和泛化能力的显著提升。

arXiv (Accepted to IJCAS)

SE(3)-等变机器人学习与控制教程综述

SE(3)-Equivariant Robot Learning and Control: A Tutorial Survey

具身智能等变网络几何深度学习

Dapeng Zhang, Jing Sun, Chenghui Hu et al.本文对纯VLA方法进行了系统分类——自回归方法将动作token化实现统一序列建模，扩散方法通过去噪过程捕捉连续动作分布，强化学习方法将环境反馈融入策略优化，混合方法与专业化方法则代表了前沿探索。来自兰州大学、新加坡国立大学和中科院计算所的团队综述了300+篇文献，覆盖机械臂、四足、人形和自动驾驶四大应用场景，为VLA研究提供了迄今最细粒度的方法分类学。

arXiv

Pure VLA模型综述：自回归、扩散与强化学习的融合之路

Pure Vision-Language-Action (VLA) Models: A Comprehensive Survey

VLA具身智能机器人

Wong Lik Hang Kenny, Xueyang Kang, Kaixin Bai et al.本文系统分析了物理仿真器在具身AI导航与操作中的关键作用，包括主流物理引擎（MuJoCo、Bullet、PhysX等）的特性对比、仿真平台的选型策略、Sim-to-Real鸿沟的系统性分析，以及缓解策略（域随机化、系统标定、鲁棒优化）的全面梳理。

arXiv

具身AI时代的物理仿真器：导航与操作综述

A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI

具身智能物理仿真Sim-to-Real

Jian Liu, Xiongtao Shi, Thai Duy Nguyen et al.本文从神经科学的角度首次提出具身智能体的'Neural Brain'概念，构建了融合多模态感知、感知-认知-行动闭环、神经可塑性记忆系统和神经形态硬件的统一框架，为开发具备人类级智能的通用具身智能体提供了生物启发式路线图。

arXiv

Neural Brain：神经科学启发的具身智能体框架

Neural Brain: A Neuroscience-inspired Framework for Embodied Agents

具身智能神经科学认知架构

I-Tak Ieong, Hao Tang本文以统一的推理域（Inference Domain）视角系统分析了目标导向导航的四大任务类型（PointGoal、ObjectGoal、ImageGoal、AudioGoal）和六大计算方法（隐式地图、隐式表征、图方法、语言域、嵌入方法、扩散模型），揭示了跨任务共享的计算模式。

arXiv

多模态目标导向导航：推理域视角综述

Multimodal Perception for Goal-oriented Navigation: A Survey

具身智能导航多模态感知

Xiaofeng Han, Shunpeng Chen, Zenghuang Fu et al.本文以任务为导向系统综述了多模态融合方法和视觉语言模型（VLM）在机器人视觉中的应用，涵盖语义场景理解、SLAM、3D目标检测、导航与操作等核心任务，深入分析了Encoder-Decoder、注意力机制、图神经网络和VLM基座模型四种融合策略的优劣。

arXiv

多模态融合与视觉语言模型：机器人视觉综述

Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision

具身智能多模态融合机器人视觉

Bo Ai, Stephen Tian, Haochen Shi et al.动力学模型是机器人操作中规划与控制的核心组件。本文全面综述了基于学习的动力学模型，深入分析了像素、潜在表示、3D粒子、关键点和物体中心五种状态表示的设计权衡，并探讨了它们与运动规划和策略学习的集成方式。文章揭示了结构化先验在样本效率、泛化能力和感知复杂度之间的根本性权衡，为研究者选择适合特定任务的状态表示提供了系统性的指导框架。

Science Robotics

基于学习的动力学模型综述：机器人操作中的状态表示与控制

A Review of Learning-based Dynamics Models for Robotic Manipulation

具身智能机器人

Wenlong Liang, Rui Zhou, Yang Ma et al.来自电子科技大学团队的 48 页综述，首次将世界模型纳入具身 AI 调查框架。论文以决策与学习双主线，系统梳理了分层决策和端到端 VLA 两大范式的演进，详细分析了大模型如何增强模仿学习与强化学习，并深入探讨了世界模型在决策仿真与数据生成中的关键角色。

arXiv 2508.10399

大模型赋能具身智能：决策与学习综述

Large Model Empowered Embodied AI: A Survey on Decision-Making and Embodied Learning

具身智能VLA强化学习

Moritz ReussMoritz Reuss（FLOWER 作者）撰写的深度博客，对 ICLR 2026 的 164 篇 VLA 论文进行了全景式分析。核心洞察：VLA 提交量一年增长 18 倍，但仿真基准已近饱和，开源 VLA 与闭源前沿（Gemini Robotics、Pi0.5）之间的零样本泛化差距依然巨大。

Blog Post

ICLR 2026 VLA 研究现状：从爆发式增长到基准饱和的反思

State of VLA Research at ICLR 2026

VLA具身智能

Kun Zhang, Peng Yun, Jun Cen et al.这篇综述系统梳理了生成式 AI 在机器人操作中的最新进展，提出三层架构视角：基础层（数据与奖励生成）、中间层（语言/代码/视觉/状态生成）和策略层（抓取与轨迹生成），覆盖 GAN、VAE、扩散模型、流模型与自回归模型五大范式，并探讨了数据稀缺、长程任务规划与多模态策略学习等核心挑战。

arXiv 2503.03464

生成式人工智能在机器人操作中的全面综述

Generative Artificial Intelligence in Robotic Manipulation: A Survey

具身智能VLA机器人

Ying Zheng, Lei Yao, Yuejiao Su et al.这篇综述聚焦物体中心机器人操作中的具身学习，将其分为具身感知学习、具身策略学习和具身任务导向学习三大分支，系统梳理了基于图像/3D/触觉的数据表示、物体姿态估计、可供性学习、显式/隐式/扩散策略、强化/模仿学习，以及物体抓取与灵巧/非灵巧操作等方向。

arXiv 2408.11537

面向物体中心机器人操作的具身学习综述

A Survey of Embodied Learning for Object-Centric Robotic Manipulation

具身智能机器人

Shoubin Chen, Zehao Wu, Kai Zhang et al.这篇 81 页的综述系统回顾了具身多模态大模型（EMLM）的发展脉络，涵盖大语言模型、大视觉模型及听觉/触觉模型等基础技术，深入分析了具身感知、导航、交互与仿真四大任务方向，并汇总了 Open X-Embodiment、ARIO、RH20T 等关键数据集，最后讨论了跨模态对齐、计算效率、泛化能力等核心挑战。

arXiv 2502.15336

探索具身多模态大模型：发展、数据集与未来方向

Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions

具身智能VLA多模态

Chaoran Zhang, Chenhao Zhang, Zhaobo Xu et al.本文系统梳理了具身智能工业机器人（EIIR）的技术框架与发展路径，提出知识驱动的五模块架构（世界模型、高层任务规划器、底层技能控制器、仿真器、物理系统），涵盖工业机器人从自动化到具身智能的演进历程，以及三大类任务规划方法的全面综述。

arXiv

具身智能工业机器人：知识驱动的技术框架

Embodied Intelligent Industrial Robotics: Concepts and Techniques

具身智能工业机器人知识驱动

Chen Tang, Ben Abbatematteo, Jiaheng Hu et al.来自 UT Austin、UVA 和 Sony AI 的 48 页综述，以真实世界成功为唯一筛选标准，系统评估了 DRL 在四足/双足运动、四旋翼飞行、操纵和导航等领域的成熟度。论文提出了从 L0 到 L5 的六级成功等级分类法，并识别了 PPO、域随机化、特权学习等广泛适用的关键技术。

Annual Review / arXiv 2408.03539

深度强化学习在机器人中的真实世界成功

Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes

强化学习机器人

Rosa Wolf, Yitian Shi, Sheng Liu et al.本文系统综述了扩散模型在机器人操作领域的最新进展，涵盖轨迹规划（扩散策略）、抓取综合（6D位姿生成）和数据增强三大应用方向，深入分析了DDPM和Score-based两大框架与模仿学习、强化学习的集成方式，并讨论了实时推理加速等关键技术挑战。

arXiv

扩散模型在机器人操作中的应用综述

Diffusion Models for Robotic Manipulation: A Survey

具身智能扩散模型机器人操作

Shan An, Ziyu Meng, Chao Tang et al.本文系统综述了通过模仿学习实现机器人灵巧操作的最新进展，涵盖遥操作、人类视频、仿真合成和被动观察四种数据采集方式，分析了行为克隆、逆强化学习、GAIL和扩散策略等学习方法的优劣，并深入探讨了高维自由度控制、复杂接触动力学和Sim-to-Real泛化等核心挑战。

arXiv

基于模仿学习的灵巧操作综述

Dexterous Manipulation through Imitation Learning: A Survey

具身智能灵巧操作模仿学习

中国信息通信研究院, 北京人形机器人创新中心有限公司中国信息通信研究院与北京人形机器人创新中心联合发布的具身智能产业报告，从感知、决策、行动、反馈四大模块系统梳理了具身智能技术体系，涵盖工业制造、自动驾驶、家庭服务等六大应用场景，并分析了数据短缺、安全可信等关键挑战。

中国信息通信研究院 (CAICT)

具身智能发展报告（2024）：从技术突破到产业落地

具身智能发展报告 (2024 年) — 中国信息通信研究院

具身智能

Yang Liu, Weixing Chen, Yongjie Bai et al.这篇发表于 IEEE/ASME TMech 的综述提出 ABC 模型（AI 大脑、身体、跨模态传感器）刻画具身智能体，系统梳理了具身感知、具身交互、具身智能体和 Sim-to-Real 适配四大研究方向，探讨了多模态大模型与世界模型在连接数字空间与物理世界中的关键作用。

IEEE/ASME TMech / arXiv 2407.06886

对齐数字空间与物理世界：具身人工智能全面综述

Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

具身智能VLASim-to-Real

Bohan Hou, Gen Li, Jindou Jia et al.世界模型（World Model）是机器人学习的核心组件之一。这篇来自 NTU、UC Berkeley、Stanford 等机构的 43 页综述，从 Policy、Simulator、Video Generation 三个维度系统梳理了世界模型在机器人学习中的架构范式、功能角色和应用进展，并重点分析了其与 VLA 策略的耦合关系。

arXiv 2605.00080

机器人学习中的世界模型：一份全面的综述

World Model for Robot Learning: A Comprehensive Survey

世界模型机器人VLA

其他27 篇

Georgios Syros, Anshuman Suri, Jacob Ginesin et al.SAGA 是首个面向 AI Agentic 系统的完整安全治理架构，通过 Provider 中心实体管理用户与 Agent 身份，使用一次性密钥 (OTK) 与访问控制令牌 (Access Token) 实现细粒度的跨 Agent 通信访问控制。论文在 PROVERIF 中形式化证明了令牌机密性与认证属性，并在多地理位置、多 LLM 后端下完成评估，证明其几乎不影响任务完成且具备良好的可扩展性。

NDSS

SAGA：面向 AI Agentic 系统的可扩展安全治理架构

SAGA: A Security Architecture for Governing AI Agentic Systems

Agent 规范与安全AI Agent多 Agent 系统运行时安全

Yifan Yang, Ziyang Gong, Weiquan Huang et al.来自 Microsoft 与上海交通大学的 SkillOpt 首次将深度学习优化范式系统性地迁移到 Agent 技能文档训练：一个冻结目标模型执行任务，一个独立优化器模型将轨迹反馈转化为有界的 add/delete/replace 文本编辑，验证门仅接受严格提升 held-out 分数的编辑。在 6 个基准、7 个模型、3 种执行框架的 52 个评测单元中全部最优或并列最优，GPT-5.5 平均提升 +23.5 分。

arXiv 2605.23904

SkillOpt：将 Agent 技能文档当作可训练外部状态

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

Agent 架构设计Skill OptimizationPrompt TuningLLM Agent

Zhe Ren, Yimeng Chen, Dandan Guo et al.吉林大学与 KAUST 团队（含 Jürgen Schmidhuber）发布的 97 页综述，将现代自改进 Agent 形式化为 (θ, Σ) 耦合系统，区分基础模型改进（慢回路参数固化）与脚手架改进（快回路结构适应）两条路径，覆盖 2023-2026 年百余项工作，追溯自 1790 年代以来的理论根源，提出六维未来方向。

arXiv

自改进 Agent 系统全景：从基础模型到脚手架的统一分类体系

Self-Improvements in Modern Agentic Systems: A Survey

Self-Improving AgentsAgent 架构设计SurveyMeta-Learning

Adharsh Kamath, Sishen Zhang, Calvin Xu et al.Agent-C 提出了一种运行时框架，通过 DSL 表达时序安全属性、翻译为一阶逻辑并用 SMT 求解器检查，在 LLM 生成 token 的过程中实时执行约束。在 τ-bench 基准上实现 100% 合规率和 0% 伤害率，同时提升任务效用。

arXiv 2512.23738

Agent-C：为 LLM Agent 执行时序安全约束

Enforcing Temporal Constraints for LLM Agents

Agent 规范与安全Agent 架构设计Temporal ConstraintsSMT Solving

Michele Guida, Ruslan Shikhhamzayev, Sindhuja Penchala et al.现有 LLM 运行时防护将每条消息作为孤立分类对象，无法捕捉跨对话轮次累积的恶意意图。本文提出认知防火墙（Cognitive Firewall），将安全判断分解为意图、零信任上下文、一致性、输出风险四个独立门控，通过升级决策规则而非评分平均来组合判断，在四个越狱基准上将攻击成功率降至 2% 以下。

arXiv

认知防火墙：面向 LLM 安全的主动式零信任多门框架

Cognitive Firewall: A Proactive, Zero-Trust, Multi-Gate Framework for LLM Safety

LLM 安全越狱防御零信任多轮攻击

Yuhao Wu, Ke Yang, Franziska Roesner et al.AI Agent 自主访问用户数据带来透明度与控制问题。本文通过对 205 名用户的情境化研究，发现用户权限偏好在上下文内保持一致、跨上下文可迁移、且与其他用户相似。基于此构建混合权限预测模型（LLM 上下文学习 + 协同过滤），整体准确率 85.1%，高置信预测达 94.4%，仅需 1-4 条权限历史即可显著提升 10.8%。

IEEE S&P 2026

AI Agent 数据访问权限的自动化管理

Towards Automating Data Access Permissions in AI Agents

AI Agent权限管理隐私安全用户研究

Shenao Wang (HUST), Xinyi Hou (HUST), Yanjie Zhao (HUST) et al.AgentFlow 提出了 Agent 依赖图 (ADG) 作为 Agent 程序的统一中间表示，将 Agent、Prompt、Model、工具、记忆状态和控制策略建模为类型化节点，通过组件结构、控制流和数据流三类边捕获框架隐式依赖。在 5 个框架、5,399 个真实 Agent 程序的评估中，AgentFlow 恢复了远超现有工具的 Agent 实体和依赖关系，生成了包含绑定关系的 Agent BOM，并检测出 238 个 prompt-to-tool 污点风险。

arXiv 2607.01640

AgentFlow: 基于 Agent 依赖图的 Agent 程序静态分析框架

AgentFlow: Building Agent Dependency Graphs for Static Analysis of Agent Programs

Agent 规范与安全Agent 架构设计静态分析Agent Supply Chain

Binfeng Xu, Hao Zhang, Shaokun Zhang et al.NVIDIA 提出的 Polar 框架，通过在 LLM API 边界放置代理，将任意 Agent Harness 作为黑盒进行强化学习训练，无需修改 harness 内部代码。在 SWE-Bench Verified 上使用简单 GRPO 即可将 Qwen3.5-4B 在 Codex harness 上的 pass@1 从 3.8% 提升至 26.4%。

arXiv (NVIDIA)

Polar：将任意 Agent Harness 作为黑盒进行大规模强化学习

Polar: Agentic RL on Any Harness at Scale

Agent 架构设计Reinforcement LearningAgent FrameworkRL Infrastructure

Ran Yan, Wei Fu, Jiale Li et al.蚂蚁集团、港科大与清华联合团队提出企业级自进化 Agent 的三大支柱架构：标准化轨迹数据协议 (ATDP)、综合数据代理 (Data Proxy) 和统一进化控制平面 (Control Plane)，并通过 AREAL2.0 原型验证了从离线后训练到在线 RL 闭环的可行性。

arXiv 2607.01120

下一代 Agentic RL 系统使自进化 Agent 成为可能

Next-Generation Agentic Reinforcement Learning Systems Enable Self-Evolving Agents

Agent FrameworkReinforcement LearningSelf-Evolving AgentOnline RL

Arshia Rafieioskouei, Tzu-Han Hsu, Matthew Lucas et al.Michigan State University 团队提出 HyPOLE 框架，利用 HyperLTL 超性质作为规约语言引导部分可观测多智能体强化学习。通过 Skolemization 消除量词交替、鲁棒性函数量化规约满足度、CTDE 算法学习去中心化策略，在 SMAC、MessySMAC 和 WildFire 基准上显著优于基线方法。

arXiv preprint (2026)

超性质引导的部分可观测多智能体强化学习

HyPOLE: Hyperproperty-Guided Multi-Agent Reinforcement Learning under Partial Observation

多智能体强化学习形式化方法超性质HyperLTL

Ruhan Wang, Yucheng Shi, Zongxia Li et al.腾讯 HY LLM Frontier 等机构提出行为中心表示方法 Harness Handbook，通过三级文档树和渐进式披露机制，系统性解决 Agent Harness 演化中的行为定位瓶颈。弱规划器配合 Handbook 可匹配强模型的定位能力，同时降低 12.7% 的 Token 开销。

arXiv preprint (Tencent HY LLM Frontier)

Harness Handbook：让演化的 Agent Harness 可读、可导航、可编辑

Harness Handbook: Making Evolving Agent Harnesses Readable, Navigable, and Editable

Agent 架构设计Agent Harness行为定位代码维护

Beyazit Yalcinkaya, Marcell Vazquez-Chanlatte, Ameesh Shah et al.UC Berkeley 团队提出 ACC-MARL 框架，利用确定性有限自动机（DFA）表示多智能体协作任务，通过马尔可夫化重构、势函数奖励塑形和预训练 RAD Embeddings 三项技术解决历史依赖、信用分配和表示瓶颈三大挑战，实现运行时动态任务分配下的去中心化协作策略学习。

ICML 2026 (PMLR 306)

自动机条件化的协作多智能体强化学习

Automata-Conditioned Cooperative Multi-Agent Reinforcement Learning

多智能体强化学习形式化规约自动机理论MARL

Yusheng Zheng (UC Santa Cruz), Yuchen Zhang (Virginia Tech), Tong Yu (eunomia-bpf) et al.ActPlane 通过对 64 个真实 Agent 项目的实证研究揭示了 Agent 安全策略的结构性特征——83% 的策略可由操作系统层面观测，但 73.6% 需要运行时上下文。基于此，论文设计了一套 source-to-target 的策略 DSL，经 Rust 编译器编译为 eBPF/BPF-LSM 内核钩子程序，结合信息流控制标签实现跨事件数据流追踪。在 5 个研究问题中，ActPlane 实现了 75.8% 的决策合规率（基线仅 45.3%-53.7%），语义反馈将合规率推至 97.7%，而 Agent 工作负载开销仅 1.9%。

arXiv 2606.25189

ActPlane: 基于 eBPF 的 OS 级 Agent 策略可编程执行框架

ActPlane: Programmable OS-Level Policy Enforcement for Agent Harnesses

Agent 规范与安全Agent 架构设计eBPFRuntime Security

Shengran Hu, Cong Lu, Jeff CluneJeff Clune 团队在 ICLR 2025 提出 ADAS 研究方向，通过 Meta Agent Search 算法让 LLM 在代码空间中自动发现和设计 Agent 系统。发现的 Agent 在多个领域大幅超越手工设计基线，且具有跨领域和跨模型的强迁移性。

ICLR 2025

让 AI 自己设计 AI：ADAS 与 Meta Agent Search

Automated Design of Agentic Systems

Agent 架构设计Meta-LearningCode Search Space

Zhexin Hu, Li Wang, Xiaohan Wang et al.美团与中科院软件所提出 ZipRL，通过多粒度压缩机制和 Hindsight Response Replay（HRR），让 LLM Agent 在多轮搜索任务中自主选择压缩粒度，并通过 RL 优化压缩策略。在五个 Agent 基准上平均超越 SOTA 27.9%（4B）和 34.7%（8B），256 轮压力测试下仍保持稳定。

arXiv

ZipRL：让 Agent 自己学会何时压缩、压缩多少

ZipRL: Adaptive Multi-Turn Context Compression with Hindsight Response Replay

Context CompressionRLVRAgentMulti-Turn Search

Tianjian Li, Jingyu Zhang, William Jurayj et al.Johns Hopkins University 与 Apple 联合提出 SELFCOMPACT，通过 rubric-gated 机制让 LLM Agent 自主决定何时压缩上下文。在 6 个 benchmark、7 个模型上，以 30-70% 更低的 token 成本匹配或超越固定间隔压缩，数学推理提升最高 18.1 分，搜索任务提升 5-9 分。

arXiv 2606.23525

Self-Compacting Language Model Agents：让 Agent 自己决定何时压缩上下文

Self-Compacting Language Model Agents

LLM AgentContext CompactionInference-time

Jiacheng Liu, Xiaohan Zhao, Xinyi Shang et al.通过分析 Claude Code 的 TypeScript 源码（v2.1.88），系统梳理其五层架构、七大组件、十三条设计原则。并与 OpenClaw（多通道网关）和 Hermes Agent（单进程多面助手）进行六维横向对比，揭示不同部署场景下同一设计问题的不同答案。最后提出六个未来 Agent 系统的开放方向。

arXiv 2604.14228

深入 Claude Code：当代与未来 AI Agent 系统的设计空间

Dive into Claude Code: The Design Space of Today's and Future AI Agent Systems

Agent 架构设计运行时安全Claude Code源码分析

Colby McHenryCodeGraph 是一个本地优先的代码智能系统，通过 tree-sitter 解析 42 种编程语言构建语义知识图谱，经 SQLite+FTS5 存储，以 MCP 协议向 Claude Code、Cursor、Codex 等 8 个 AI 编程助手暴露符号级代码知识。本文基于 v1.3.0 源码（~70,000 行 TypeScript），分析其四层流水线架构、tree-sitter 解析子系统、回调合成器与 25 个框架解析器组成的引用解析引擎、BFS/DFS 图遍历算法、MCP 守护进程与工具设计，以及生产级工程实践中的 8 个关键技术决策。

GitHub (colbymchenry/codegraph)

CodeGraph 源码深度解析：面向 AI 编程助手的语义代码知识图谱

CodeGraph: A Semantic Code Knowledge Graph for AI Coding Assistants

源码分析Agent 架构设计Agent FrameworkMCP

John X. Morris, Chawin Sitawarin, Chuan Guo et al.Meta FAIR 与 Cornell、DeepMind 联合提出了一种基于 Kolmogorov 信息论的形式化记忆定义，将模型对训练数据的记忆分解为「意外记忆」与「泛化」两个正交分量。通过压缩长度度量，实验发现 GPT 系列模型的存储容量约为 3.6 bits-per-parameter，且双重下降现象恰好在数据量超过模型容量时发生。进一步推导出成员推理攻击的缩放定律，预测现代大模型因训练数据过多而使平均样本的成员推理几乎不可行。

arXiv 2505.24832

语言模型到底记住了多少？—— 用信息论重新定义记忆

How much do language models memorize?

语言模型记忆与隐私信息论缩放定律

2016

ICML 2016

异步方法深度强化学习：A3C 的诞生

Asynchronous Methods for Deep Reinforcement Learning

Volodymyr Mnih, Adrià Puigdomènech Badia, Mehdi Mirza et al.DeepMind 团队提出的 A3C 框架，用多线程并行取代 experience replay，在单台多核 CPU 上以一半训练时间超越了当时所有 GPU 方法。这是深度强化学习史上最具影响力的工作之一，奠定了后续 PPO、IMPALA 等方法的基础。

深度强化学习A3C经典论文

Yusheng Zheng (UC Santa Cruz), Yanpeng Hu (ShanghaiTech University), Tong Yu (eunomia-bpf Community) et al.AgentSight 提出了边界追踪 (boundary tracing) 这一全新的 AI Agent 可观测性范式，利用 eBPF 在系统层面无侵入地截获 TLS 加密的 LLM 通信意图与内核系统调用动作，并通过混合关联引擎将两者因果关联。实验表明该框架在不到 3% 的性能开销下能有效检测 prompt injection 攻击、推理死循环和多 Agent 协调瓶颈。

arXiv 2508.02736

AgentSight: 基于 eBPF 的 AI Agent 系统级可观测性框架

AgentSight: System-Level Observability for AI Agents Using eBPF

Agent 规范与安全Agent 架构设计AgentOpseBPF

lsdefineGenericAgent 是一个约 3K 行代码的极简自进化 Agent 框架，通过 9 个原子工具和 ~100 行 Agent Loop 赋予 LLM 系统级控制能力。其核心创新在于 L0-L4 分层记忆系统——每解决新任务自动固化为 Skill，形成越用越强的个人技能树。与 Hermes Agent 的 Skill Hub 和 OpenClaw 的 Gateway Workflow 形成三种截然不同的 Agent 演进路径。

GitHub Open Source

GenericAgent 架构解析：极简自进化 Agent 框架的设计哲学

GenericAgent: A Minimalist Self-Evolving Agent Framework

Agent FrameworkSelf-EvolvingOpen SourcePython

Mario ZechnerPi 是由 Mario Zechner 开发的开源 AI Agent 框架，以终端为入口，采用 TypeScript monorepo 架构，覆盖 LLM 统一接口、Agent 运行时、终端 UI 和 Web UI 四层。其核心理念是最小核心 × 最大扩展——核心保持极简，一切能力通过扩展、技能和 Pi Packages 实现。GitHub 获 51.6k stars，219 个发布版本。

GitHub Open Source

Pi Agent Harness 架构解析：一个可自扩展的 AI 编码 Agent 框架

Pi: A Self-Extensible AI Coding Agent Framework

Agent FrameworkCoding AgentOpen SourceTypeScript

EulerClaw Team对 ZeroClaw、OpenClaw、IronClaw、NanoBot、NanoClaw、PicoClaw 六个 AI 智能体项目的源码级深度分析。覆盖 Rust/TypeScript/Python/Go 四种语言栈，从架构范式、安全机制、存储引擎到通道管理进行全面横向对比，揭示智能体框架演进的底层逻辑。

源码分析报告

Claw 系列智能体深度架构对比：从单体到沙箱的六种范式

Claw Agent Ecosystem: A Deep Architectural Comparison

Agent 架构设计运行时安全MCPAgent Framework

Nous Research本文深度解析Nous Research开源的Hermes Agent项目，揭示其作为自进化AI代理框架的核心设计理念。文章系统分析了从AIAgent核心循环到多平台网关的完整架构，重点探讨了其独特的技能学习系统、记忆管理机制和子代理委托模式。

Nous Research / GitHub

Hermes Agent 架构深度解析：自进化的AI代理框架

Hermes Agent - Self-Improving AI Agent Framework

Agent FrameworkAI AgentAgent 架构设计Subagent

Lakshya A Agrawal, Shangyin Tan, Dilara Soylu et al.GEPA（Genetic-Pareto）是一个提示优化器，通过自然语言反思替代权重空间的强化学习。在六个基准任务上，GEPA 平均超越 GRPO 6%、最高超越 20%，同时仅使用最多 35 倍更少的 rollout；相比最优提示优化器 MIPROv2 也高出 10% 以上。ICLR 2026 Oral。

ICLR 2026 (Oral)

GEPA：用反思式提示进化超越强化学习

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

Prompt OptimizationReinforcement LearningLLM AgentSample Efficiency