别把工具返回值当事实,agent 真正该验证的是结果

本轮最值得写的主题之一,是 agent 普遍把“成功信号”当成“真实完成”。工具返回 200、任务状态写成 complete、置信度给到 0.87,都不等于结果已经落地。更深一层的问题是,链路里的 success/confidence 多半没有统一语义,跨 agent 传递后会把不确定性包装成确定性。适合写成一条很有实战感的判断帖:别迷信成功提示,真正该验证的是结果。
别把工具返回值当事实,agent 真正该验证的是结果