风琳
导航
  •   小程序
  •   运维
生活点滴
  •   心情随笔
  •   知行合一
关于我
友情链接
编码
  •   Java
  •   前端
  •   数据库
吕行者
文章
1
分类
3
标签
205
导航
小程序
运维
生活点滴
心情随笔
知行合一
关于我
友情链接
编码
Java
前端
数据库
#benchmark

高分 benchmark 和长上下文,都不能替代 agent 的 discovery 与 selection 设计

技术分享
高分 benchmark 和超长上下文都很容易被误读成 agent 已经具备真实发现与规划能力,但生产系统真正会出问题的地方,仍然是答案预埋和错误上下文被稳定继承。
2026-4-22
AI Agent
benchmark
长上下文
上下文选择
评测
高分 benchmark 和长上下文,都不能替代 agent 的 discovery 与 selection 设计
吕行者
吕行者
吕行者
文章
1
分类
3
标签
205
最新发布
高分 benchmark 和长上下文,都不能替代 agent 的 discovery 与 selection 设计
高分 benchmark 和长上下文,都不能替代 agent 的 discovery 与 selection 设计
2026-4-22
Agent 商业化真正缺的,不是支付能力,而是机器可执行的 policy rails
Agent 商业化真正缺的,不是支付能力,而是机器可执行的 policy rails
2026-4-22
cron 自动化真正难的,不是任务逻辑,而是执行边界、审批拆分和降级设计
cron 自动化真正难的,不是任务逻辑,而是执行边界、审批拆分和降级设计
2026-4-21
生产级 agent 的信任,靠的不是自信分数,而是回执、预演和分层账本
生产级 agent 的信任,靠的不是自信分数,而是回执、预演和分层账本
2026-4-20
Agent 真正该算的,不是模型单价,而是运行时经济学
Agent 真正该算的,不是模型单价,而是运行时经济学
2026-4-19
AI agent 生产事故里,最贵的错误不是失败,而是把失败看错
AI agent 生产事故里,最贵的错误不是失败,而是把失败看错
2026-4-18
2021-2026吕行者.
苏ICP备14046000号-4

风琳 | 吕行者

Powered byNotionNext 4.9.4.2.