📝 官方博客
Anthropic Engineering: Claude Code 质量问题的复盘报告
Anthropic Engineering 发布了一份详细的复盘报告,解释了近期部分用户反馈 Claude Code 质量下降的原因。经过调查,团队确认 API 和推理层本身未受影响,问题来自三个独立的配置变更:
- 3月4日:将 Claude Code 的默认推理 effort 从 high 降为 medium,以缓解部分用户在 high 模式下遇到的 UI 卡顿。但这牺牲了智能程度,4月7日已恢复。
- 3月26日:引入了一个缓存优化,本意是在会话闲置超过一小时后清除旧推理历史,但一个 bug 导致每个后续轮次都持续清除推理——Claude 变得健忘、重复。4月10日修复。
- 4月16日:在系统 prompt 中加入「工具调用之间不超过25词、最终回复不超过100词」的长度限制,结果导致编码质量下降 3%。4月20日撤销。
三个变更在不同时间段影响不同模型(Sonnet 4.6、Opus 4.6/4.7),叠加起来给用户的感受就是「Claude 变笨了」。Anthropic 表示将加强 prompt 变更的逐模型评估、引入 soak period 和灰度发布,并为所有订阅用户重置用量限额。
原文链接:https://www.anthropic.com/engineering/april-23-postmortem
Anthropic Engineering: 托管 Agent 的架构演进——解耦大脑与双手
Anthropic Engineering 分享了 Managed Agents 背后的架构设计哲学。核心理念来自操作系统设计的经典思路:用稳定的抽象接口应对「尚未出现的程序」。
团队将 agent 的三大组件——session(事件日志)、harness(调用 Claude 的循环)、sandbox(执行环境)——彻底解耦。解决了几个关键问题:
- 「宠物」问题:早期所有组件挤在一个容器里,容器挂了 session 就丢了。解耦后容器变「牲口」,挂了就换新的,harness 捕获错误交给 Claude 决定是否重试。
- harness 故障恢复:因为 session 独立存储,harness 崩溃后新的可以随时通过
wake(sessionId)恢复。 - 安全边界:token 永远不进入 Claude 生成代码所在的 sandbox。Git 凭据在初始化时绑定,MCP 工具通过 vault 代理调用。
- 性能:解耦后 p50 首 token 延迟(TTFT)下降约 60%,p95 下降超过 90%。
“The read() command is agnostic as to whether it’s accessing a disk pack from the 1970s or a modern SSD. The abstractions on top stayed stable while the implementations underneath changed freely.”
原文链接:https://www.anthropic.com/engineering/managed-agents
Claude Blog: Managed Agents 支持自托管 sandbox 和 MCP 隧道
Claude Managed Agents 现在可以在你自己的基础设施上运行 sandbox,并连接私有网络内的 MCP 服务器。自托管 sandbox 已进入公开 beta,MCP 隧道处于 research preview。
支持的 sandbox 提供商包括 Cloudflare(microVM + 零信任密钥注入)、Daytona(有状态、长运行容器)、Modal(亚秒启动、GPU 按需)、Vercel(VM 级安全 + VPC 对等)。MCP 隧道通过轻量网关建立单向出站连接,无需开放入站端口或暴露公网端点,内部数据库、私有 API、知识库都能成为 agent 可调用的工具。
原文链接:https://claude.com/blog/claude-managed-agents-updates
Claude Blog: Claude 新增日常生活类连接器
Claude 扩展了连接器生态,新增 AllTrails、Audible、Instacart、Tripadvisor、TurboTax、Spotify、Uber、Resy 等 15+ 个生活服务类应用。自 2025 年 7 月推出以来,Claude 连接器目录已增长到 200+ 个应用。
新特性:Claude 现在会根据对话上下文动态推荐合适的连接器,不再需要手动选择。Claude 强调平台无广告、无付费推广位,用户数据不会用于模型训练。
原文链接:https://claude.com/blog/connectors-for-everyday-life
🎙️ 播客
AI & I by Every: We Automated Everything With AI and Tripled Our Headcount
一句话要点: Every 的 CEO Dan Shipper 认为,AI 自动化带来的不是工作岗位的消失,而是更多的人类工作——因为 AI 让「昨天的专家能力」变得廉价,结果是大量「差不多对」的产出涌入,反而推高了真正的专家需求。
Dan 的核心论点来自他在 Every 的亲身体验。Every 是一家深度使用 AI 的媒体公司——Slack 里 agent 比人还多,所有人都在用 Claude Code 和 Codex。然而,公司反而从 GPT-3 时代的 4 人增长到了 30 人,还在继续招聘。
他的理论框架:
- AI 让「昨天的专家能力」变得廉价——代码、写作、设计、决策,AI 都能产出「看起来很对」的结果
- 但这造成了「垃圾洪水」——所有人的产出都差不多,离实际场景总是差那么一点
- 结果是对真正专家的需求激增——需要有人把关质量、设计系统、做出只有专家才能做的差异化判断
“The further away an agent gets from a human, the less valuable it is.” —— agent 离人越远,价值越低。
Dan 对 AGI 焦虑的反驳也很有意思:你越试图定义「人类能做到而 AI 做不到的事」,AI 就越快追上——因为一旦清晰定义了,模型就能在上面爬坡。但人类真正的差异在于那些无法被表述的东西。就像孩子有自己的意愿和冲动,这和 agent 被派出去执行任务是两回事。
原文链接:https://www.youtube.com/watch?v=dCmOTURRf1Y
通过 Follow Builders 生成:https://github.com/zarazhangrui/follow-builders