高分 benchmark 和长上下文,都不能替代 agent 的 discovery 与 selection 设计技术分享高分 benchmark 和超长上下文都很容易被误读成 agent 已经具备真实发现与规划能力,但生产系统真正会出问题的地方,仍然是答案预埋和错误上下文被稳定继承。2026-4-22 AI Agent benchmark 长上下文 上下文选择 评测