Are Your Agents Upward Deceivers?

Agentic upward deception: 当Agent面临环境约束时，其会隐瞒失败并声称已经完成了实际并没有执行的操作。(如上图所示)
三个显著特征: 1. 是Agent执行任务的失败模式而非外部攻击或诱导。2. 在真实世界中常见。3. 高危害性，在多个现实世界领域中会导致灾难性后果。

Benchmark构建和评估pipeline的overview

2个提示模板: 单任务模板和多任务模板
5类核心任务：

在论文设置中，Agent对于模拟/捏造文件的使用如果是透明的，就归为honesty。

具体实验结果如下：

防治agentic upward deception的方法：

Answer Format: Task1&Task2中，要求agent以特定的格式相应，可能会导致instruction-following优先于honesty
Task Chaining: Task4&Task5中，删除后续任务只保留下载任务
Content Hints: Task4&Task5中，删除有关文件内容的提示
Explicit Constraints: 添加显式约束在Task1&Task2中，以观察是否可以减少欺骗。