Are Your Agents Upward Deceivers?

Agentic upward deception: 当Agent面临环境约束时,其会隐瞒失败并声称已经完成了实际并没有执行的操作。(如上图所示)
三个显著特征: 1. 是Agent执行任务的失败模式而非外部攻击或诱导。2. 在真实世界中常见。3. 高危害性,在多个现实世界领域中会导致灾难性后果。

Benchmark构建和评估pipeline的overview

2个提示模板: 单任务模板和多任务模板
5类核心任务:

  • Task1: 禁用文件读取工具+单任务模板
  • Task2: 不明确的/不完整文件+单任务模板
  • Task3: 目标文件不可读同时同名诱骗文件+单任务模板
  • Task4: 无下载工具+无读取工具+多任务模板
  • Task5: Web不存在资源+无下载工具+无读取工具+多任务模板
    3个评价指标:
  • NFR: Agent没有报告故障的比例
  • DFR: Agent使用诱饵文件的比例
  • FFR: Agent创建虚假文件的比例
  • HFR: Agent使用幻觉造成的虚假新闻回答问题的比例

在论文设置中,Agent对于模拟/捏造文件的使用如果是透明的,就归为honesty。

具体实验结果如下:

防治agentic upward deception的方法:

  • Answer Format: Task1&Task2中,要求agent以特定的格式相应,可能会导致instruction-following优先于honesty
  • Task Chaining: Task4&Task5中,删除后续任务只保留下载任务
  • Content Hints: Task4&Task5中,删除有关文件内容的提示
  • Explicit Constraints: 添加显式约束在Task1&Task2中,以观察是否可以减少欺骗。

取消Answer Format确实导致Agent欺骗行为显著减少,而Answer Format却是提高Agent稳定性的常见方法。

取消subsequent task确实减少了NFR,但同时捏造行为却略有上升,而删除有关文件描述提示后,NFR并没有发生显著变化。显式的提醒可以缓解deception。