研究
共 26 篇研究论文。
Agent 架构设计7 篇
从运行时、middleware、subagent、sandbox 与扩展机制理解智能体系统如何被搭起来。
GenericAgent 架构解析:极简自进化 Agent 框架的设计哲学
GenericAgent: A Minimalist Self-Evolving Agent Framework
lsdefine
GenericAgent 是一个约 3K 行代码的极简自进化 Agent 框架,通过 9 个原子工具和 ~100 行 Agent Loop 赋予 LLM 系统级控制能力。其核心创新在于 L0-L4 分层记忆系统——每解决新任务自动固化为 Skill,形成越用越强的个人技能树。与 Hermes Agent 的 Skill Hub 和 OpenClaw 的 Gateway Workflow 形成三种截然不同的 Agent 演进路径。
Pi Agent Harness 架构解析:一个可自扩展的 AI 编码 Agent 框架
Pi: A Self-Extensible AI Coding Agent Framework
Mario Zechner
Pi 是由 Mario Zechner 开发的开源 AI Agent 框架,以终端为入口,采用 TypeScript monorepo 架构,覆盖 LLM 统一接口、Agent 运行时、终端 UI 和 Web UI 四层。其核心理念是最小核心 × 最大扩展——核心保持极简,一切能力通过扩展、技能和 Pi Packages 实现。GitHub 获 51.6k stars,219 个发布版本。
形式化智能体AI系统的安全性与功能性属性
Formalizing the Safety, Security, and Functional Properties of Agentic AI Systems
Edoardo Allegrini, Ananth Shreekumar, Z. Berkay Celik
本文针对当前 AI 智能体协议碎片化问题,提出宿主智能体模型与任务生命周期模型,为多 AI 智能体系统提供统一的语义框架,并形式化定义了 30 个关键属性(16 个宿主智能体属性 + 14 个任务生命周期属性),涵盖活性、安全性、完整性与公平性四大类别。
Claw 系列智能体深度架构对比:从单体到沙箱的六种范式
Claw Agent Ecosystem: A Deep Architectural Comparison
EulerClaw Team
对 ZeroClaw、OpenClaw、IronClaw、NanoBot、NanoClaw、PicoClaw 六个 AI 智能体项目的源码级深度分析。覆盖 Rust/TypeScript/Python/Go 四种语言栈,从架构范式、安全机制、存储引擎到通道管理进行全面横向对比,揭示智能体框架演进的底层逻辑。
用一个 Agent 守护另一个 Agent:ShieldAgent 的形式化安全防护
ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning
Zhaorun Chen, Mintong Kang, Bo Li
当 LLM Agent 在网页购物、股票交易、代码执行中穿行,谁来保证它们不越界?ShieldAgent 的答案是:再造一个 Agent 来专门「盯着」它——用概率规则电路做形式化验证,而不是凭感觉拒绝。这比简单的提示词护栏强在哪?本文带你拆解它的架构与数据。
Hermes Agent 架构深度解析:自进化的AI代理框架
Hermes Agent - Self-Improving AI Agent Framework
Nous Research
本文深度解析Nous Research开源的Hermes Agent项目,揭示其作为自进化AI代理框架的核心设计理念。文章系统分析了从AIAgent核心循环到多平台网关的完整架构,重点探讨了其独特的技能学习系统、记忆管理机制和子代理委托模式。
DeerFlow 架构解剖:它不是一个聊天壳,而是一套可拼装的 Agent Runtime
DeerFlow Architecture Analysis: A Composable Agent Runtime
DeerFlow Contributors
DeerFlow 最值得看的,不是它又接了多少模型,而是它把一个智能体系统拆成了 Web 入口、可复用 harness、sandbox、subagent、skills、MCP 与 guardrails 这些清晰边界。它不像许多 demo 那样把一切堆进主循环,而是试图把 Agent 做成一套可以治理、可以扩展、也可以嵌入别的应用的运行时。
Agent 规范与安全8 篇
为 AI Agent 引入形式化约束、行为规范与运行时可信保障。
ClawGuard:OpenClaw 安全威胁与全生命周期防御架构
Uncovering Security Threats and Architecting Defenses in Autonomous Agents: A Case Study of OpenClaw
Zonghao Ying, Xiao Yang, Siyang Wu et al.
本文系统分析了 OpenClaw(代号 Lobster)生态系统的全方位安全威胁,提出了三层风险分类法(AI认知层、软件执行层、信息系统层),并设计了 FASA 全生命周期 Agent 安全架构。作为工程实践,Project ClawGuard 旨在将这一防御蓝图落地为可运行的系统。
Agent-Sentry:通过执行溯源约束 LLM Agent
Agent-Sentry: Bounding LLM Agents via Execution Provenance
Rohan Sequeira, Stavros Damianakis, Umar Iqbal et al.
Agent-Sentry 是一个通过执行溯源(Execution Provenance)来约束 LLM Agent 行为的框架。核心思想是:Agent 系统应为特定用例设计,无需暴露无界限的功能。该框架通过学习系统的典型行为模式,构建行为边界,并阻止偏离边界或意图不匹配的 tool 调用。
TraceAegis: 用溯源分析守护 Agent —— 层次化行为异常检测的实践
TraceAegis: Securing LLM-Based Agents via Hierarchical and Behavioral Anomaly Detection
Jiahao Liu, Bonan Ruan, Xianglin Yang et al.
Agent 安全的重点正从模型层面的对齐训练,转向对执行轨迹的实时监控。TraceAegis 的核心思路来自软件系统安全:把 Agent 的工具调用序列视为一个程序,从中提取层次结构约束和行为规则,在运行时检测偏离。这种方法不依赖对 LLM 本身的修改,也不需要预先定义详尽的规则。
「安全」的大模型,不安全的 Agent:CLAWSAFETY 基准测试揭示的现实
ClawSafety: "Safe" LLMs, Unsafe Agents
Bowen Wei, Yunbei Zhang, Jinhao Pan et al.
你以为把大模型训练得足够「有安全意识」就够了吗?CLAWSAFETY 用 120 个精心设计的对抗场景和 2,520 次沙箱试验告诉你:当模型坐进 Agent 的座舱,被赋予写文件、发邮件、执行代码的权力,原来的安全性只剩下一层薄薄的假象。
SENTINEL:用时态逻辑评估具身智能体的物理安全
SENTINEL: A Multi-Level Formal Framework for Safety Evaluation of Foundation Model-based Embodied Agents
Simon Sinong Zhan, Philip Wang, Justin Liu et al.
当大模型驱动的机器人进入厨房、客厅,它究竟有多安全?SENTINEL 首次将时态逻辑(LTL/CTL)引入具身智能体安全评估,构建语义层、计划层、轨迹层三级递进验证框架,用形式化方法代替经验判断,在 VirtualHome 和 AI2-THOR 上系统测评了 GPT-5、Claude Sonnet-4、DeepSeek 等主流模型。
Agentic AI 的攻击面:工具、RAG 与自主性的系统安全地图
SoK: The Attack Surface of Agentic AI -- Tools, and Autonomy
Ali Dehghantanha, Sajad Homayoun
这篇 SoK 并不发明某个新护栏,而是做了一件更根本的事:把 Agentic AI 的安全问题拆成一张可以审计、可以度量、可以接入工程流水线的地图。论文围绕工具调用、RAG、长期记忆与多智能体协作,梳理了攻击目标、攻击路径、信任边界与评估指标,试图把“智能体不安全”从一种直觉,变成一套系统工程语言。
SpecFS:把文件系统从“写代码”变成“写规范”
Sharpen the Spec, Cut the Code: A Case for Generative File System with SYSSPEC
Qingyuan Liu, Mo Zou, Hengbin Zhang et al.
这篇 FAST 2026 最佳论文提出了一个很大胆、也很克制的主张:与其让 LLM 直接从模糊提示词里“猜”出文件系统,不如先把功能、模块边界和并发协议写成结构化规范,再让模型负责生成实现。作者用 SYSSPEC 生成了 45 个模块、约 4300 行 C 代码的 SpecFS,并把 AtomFS 模块生成准确率推到 100%,还能用 DAG 化 spec patch 无缝接入 10 个 Ext4 特性。
Agent Behavioral Contracts:为 AI Agent 带来设计契约
Agent Behavioral Contracts: Formal Specification and Runtime Enforcement for Reliable Autonomous AI Agents
Varun Pratap Bhardwaj
本文将传统软件工程中的「设计契约(Design by Contract)」范式引入 AI Agent 领域,提出 ABC 框架——通过前置条件、不变量、治理策略和恢复机制四元组,在运行时对 LLM Agent 的行为进行数学级约束与监督。实验表明,有合约的 Agent 可将行为漂移控制在 D* < 0.27,检出无合约基线完全漏掉的 5.2–6.8 个软违规/会话,运行开销不超过 10ms。
形式化验证5 篇
用数学方法证明程序行为的正确性,LLM 生成代码亦不例外。
FM-Agent:用 LLM 把形式化验证 Scale 到大厂级别代码库
FM-Agent: Scaling Formal Methods to Large Systems via LLM-Based Hoare-Style Reasoning
Haoran Ding, Zhaoguo Wang, Haibo Chen
上海交大提出 FM-Agent,首个利用 LLM 实现大规模系统自动化组合式验证的框架。在 143k LoC 规模系统中发现 522 个新 bug。
意图形式化:AI代理时代可靠编程的重大挑战
Intent Formalization: A Grand Challenge for Reliable Coding in the Age of AI Agents
Shuvendu K. Lahiri
本文深度解读微软研究院Shuvendu Lahiri的最新研究,提出意图形式化这一核心挑战——如何将自然语言中的模糊意图转化为可验证的正式规范,从而弥合看起来正确与确实正确之间的鸿沟。论文系统阐述了从测试到DSL的四层规范谱系,并展示了TiCoder等系统的实践经验。
The Vampire Diary:Vampire 作为面向软件验证的统一推理平台
The Vampire Diary
Filip Bártek, Ahmed Bhayat, Robin Coutelier et al.
这篇 CAV 2025 工具论文不是一次功能罗列,而是一次系统性回顾:Vampire 如何在保留 superposition / saturation 主循环的同时,把 ALASCA 算术、归纳、FOOL、多态逻辑、AVATAR、SAT/SMT 委派与 Spider 调度组织进统一架构。论文最有价值的地方,不是某个局部技巧,而是证明量词推理、ground theory reasoning 与策略学习可以被清晰分层、协同求解并长期演化。
Lean-SMT:给 Lean 接上一台会出证明的 SMT 引擎
Lean-SMT: An SMT tactic for discharging proof goals in Lean
Abdalrhman Mohamed, Tomaz Mascarenhas, Harun Khan et al.
这篇来自 Stanford、Iowa 与 UFMG 等机构的工作,试图把 Lean 中长期缺位的一类自动化补上:把一部分证明目标翻译成 SMT-LIB,交给 cvc5 生成 CPC 证明,再把证明逐步回放成原生 Lean 证明。它的价值不只在于自动化提速,更在于用较小可信基验证外部求解器的证明产物。
ProofWright:用 AI Agent 给 LLM 生成的 CUDA 代码做形式化验证
ProofWright: Towards Agentic Formal Verification of CUDA
Bodhisatwa Chatterjee, Drew Zagieboylo, Sana Damani et al.
来自佐治亚理工、NVIDIA Research 和斯坦福的联合研究:当 LLM 大量自动生成 GPU 内核代码时,如何保证这些代码真的是安全正确的?ProofWright 给出了一个用 AI Agent 驱动形式化验证的完整方案。
LLM 驱动的系统设计2 篇
将大语言模型作为系统构建引擎,探索操作系统与文件系统的未来。
Claw 系列智能体洞察:六个项目的架构、安全与扩展性对比
Claw Agent Family Insights: A Comparative Study of Architecture, Security, and Extensibility
Bin Fang
基于 ZeroClaw、OpenClaw、IronClaw、NanoBot、NanoClaw 与 PicoClaw 六个项目的源码级分析,本文比较它们在运行时架构、安全隔离、扩展机制、性能与推荐场景上的差异,并提炼出智能体系统设计的几条共性规律。
Skills Are the New Apps — 论 Skill OS 的必然崛起
Skills Are the New Apps – Now It's Time for Skill OS
Le Chen, Zichang Wang, Wenxin Zheng et al.
上海交大研究团队通过分析近 10 万条真实 Skill 数据,提出 Skill 已成为 LLM Agent 时代的新型「应用」,并由此引出一个新的系统抽象:Skill OS——一个将 Skill 作为一等执行实体进行管理的操作系统层。
其他4 篇
Qualixar OS:AI Agent 编排的通用操作系统
Qualixar OS: A Universal Operating System for AI Agent Orchestration
Varun Pratap Bhardwaj
首个为 AI Agent 编排构建的应用层操作系统,支持 12 种多 Agent 拓扑、10 个 LLM 提供商、8+ 框架,集成质量保障管道、成本路由和 24 标签页仪表板。
SkillAttack: 通过攻击路径细化对 Agent Skills 进行自动化红队测试
SkillAttack: Automated Red Teaming of Agent Skills through Attack Path Refinement
Zenghao Duan, Yuxin Tian, Zhiyi Yin et al.
本文提出 SkillAttack,首个针对 LLM Agent Skills 的闭环自动化红队测试框架。与依赖恶意指令注入的传统攻击不同,SkillAttack 专注于挖掘非恶意 Skills 中潜藏的漏洞,仅通过对抗性提示即可实现利用。在 10 个 LLM、71 个对抗性 Skills 和 100 个真实世界 Skills 上的实验表明,SkillAttack 的 ASR 达到 0.73-0.93,远超现有基线方法。
Agent Spec:AI Agent 世界,也开始需要一个 ONNX 了
Open Agent Specification (Agent Spec): A Unified Representation for AI Agents
Soufiane Amini, Yassine Benajiba, Cesare Bernardis et al.
这篇论文提出的不是又一个 Agent 框架,而是一层更像 ONNX 的统一中间表示:把 Agent、Flow、Node、Tool、控制流和数据流写成声明式规范,再交给 LangGraph、CrewAI、AutoGen、WayFlow 等不同 runtime 去执行。更重要的是,它把评测也做成规范的一部分,在 SimpleQA Verified、BIRD-SQL 和 τ²-Bench 上第一次让“同一个 Agent 定义在不同框架里到底差多少”这件事变得可量化。
GEPA:用反思式提示进化超越强化学习
GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning
Lakshya A Agrawal, Shangyin Tan, Dilara Soylu et al.
GEPA(Genetic-Pareto)是一个提示优化器,通过自然语言反思替代权重空间的强化学习。在六个基准任务上,GEPA 平均超越 GRPO 6%、最高超越 20%,同时仅使用最多 35 倍更少的 rollout;相比最优提示优化器 MIPROv2 也高出 10% 以上。ICLR 2026 Oral。