AI 建造者日报 — 2026年05月20日

📌 X/TWITTER

Roblox 产品经理 Peter Yang

Peter 分享了 Anthropic 研究 PM Alex Albert 关于如何构建下一代 Claude 模型的 5 个关键洞见：(1) 模型和 harness 要一起思考——同一个模型在不同产品表面（Claude、Cowork、Claude Code）会有不同表现；(2) Claude 开始"做梦"——当 agent 空闲时它会回顾自己的记忆、发现矛盾并修剪它们；(3) 评估专注于真实用户问题——用 Claude 聚类用户反馈、生成合成测试用例；(4) Anthropic 有全职研究员思考 Claude 的意识问题；(5) Anthropic 的写作文化帮助 Claude 构建上下文——“把东西写下来、让 Claude 能访问到，就是给它更多上下文。”

https://x.com/petergyang/status/2056381822733595090

Anthropic Claude Code 团队成员 Thariq

Thariq 分享了一个在 agent 编程中非常实用的技巧：让 agent 在实现 spec 时维护一个 implementation-notes.html 文件，记录设计决策、偏离 spec 的地方和原因、权衡取舍、以及需要确认的开放问题。这条推文迅速走红（1000+ 点赞），他随后用 Claude 帮助提炼了一个更清晰的版本。核心观点：无论你写多详细的 spec，总有模糊地带和未知的未知，这个机制让模型可以在需要时自己做决定，同时保持你在循环中。

https://x.com/trq212/status/2056418157305454805 https://x.com/trq212/status/2056415974568710421

Box CEO Aaron Levie

“这不仅适用于编程 agent，所有 agent 都是如此。” Aaron 指出，企业 agent 策略中最大的挑战是给 agent 提供恰到好处的上下文——太多信息或冲突的数据源会导致错误输出，太少信息则限制 agent 的价值。很多 AI 策略的挑战本质上是数据策略的挑战。这就是为什么有组织地管理结构化和非结构化数据环境至关重要，也是为什么从零设计的创业公司在这方面有天然优势。

https://x.com/levie/status/2056574979236409521

Vercel CEO Guillermo Rauch

Vercel 宣布所有防火墙缓解措施完全免费——不仅是 DDoS 和系统级防护，也包括用户配置的任何规则。Vercel 将承担任何规模的攻击或流量缓解的计算和网络成本。另一条推文强调 Vercel 防火墙的全球传播速度约 300ms，对比行业平均 CDN/WAF 体验是分钟级的。

https://x.com/rauchg/status/2056549825018310707 https://x.com/rauchg/status/2056423973123183028

YC 总裁 Garry Tan

GBrain 正在快速迭代中。同时一波 bug 修复合并了 22 个社区 PR、解决了 14 个 issue（共 28 个修复）。Garry 还发布了完整的 eval 报告和测试用例，开源了记忆系统的评估基准，并邀请任何记忆系统来跑这个评估，他会把结果公开展示。

https://x.com/garrytan/status/2056588601216168168 https://x.com/garrytan/status/2056571771965538501

OpenAI CEO Sam Altman

“ChatGPT 在最新更新后变得好太多了，真的为团队感到骄傲。” 获得 13000+ 点赞、近 500 次转发。

https://x.com/sama/status/2056435834333934051

Anthropic Claude 官方

Claude Design 的 token 限制在所有计划中翻倍——现在可以创作更多内容。同时 Claude 下一站伦敦，邀请用户参加深度分享和演示活动。

https://x.com/claudeai/status/2056460045756309820 https://x.com/claudeai/status/2056328149940543808

Cursor 设计师 Ryo Lu

Cursor 发布 Composer 2.5，定位为"前沿智能、极高效率"。预告还有更多功能即将到来。

https://x.com/ryolu_/status/2056417715448156276 https://x.com/ryolu_/status/2056439906390725080

Every CEO Dan Shipper

Every 即将发布完整的 Codex 使用指南。Dan 同时评论说 AI 领域出版的大部分书籍都是"slop"（粗制滥造），呼吁人们写更好的书。

https://x.com/danshipper/status/2056431972138815842 https://x.com/danshipper/status/2056418217925456170

Builder Zara Zhang

在 Claude Code 中遇到 socket 连接意外关闭的错误，询问是否有其他人遇到。同时发起了湾区的线下活动，邀请在 GBrain/LLM Wiki 等 agent 上下文管理技术方面有实践经验的人来 demo，与 Notion、Radical VC 联合主办。

https://x.com/zarazhangrui/status/2056527354772722127 https://x.com/zarazhangrui/status/2056464721549926414

FPV Ventures 合伙人 Nikunj Kothari

分享了对创业公司董事会的犀利观察——“在 X 上写爆款内容，但是糟糕的董事会成员”。他认为太多投资人用多巴胺（社交媒体的关注度）交换了真正的服务。核心忠告：为你的创始人努力干活，这是唯一能长期复利的"护城河"。

https://x.com/nikunj/status/2056363681798410592

AI 布道者 Swyx

发起挑战：有人愿意在 2-3 小时的 workshop 里 livecode 演示一个项目吗？作为学习练习。同时他正在关注 Vercel 和 Supabase 的动向。

https://x.com/swyx/status/2056478391008977404

📝 官方博客

Anthropic Engineering：Claude Code 质量报告更新

Anthropic 发布了一份深度事后分析，解释了近期用户反馈 Claude 质量下降的原因。团队追溯到三个独立变更：

推理努力度默认值从 high 降为 medium（3月4日）：为了减少 Opus 4.6 导致的 UI 冻结和过长延迟，但这个取舍是错误的。4月7日恢复为 high，Opus 4.7 默认为 xhigh。
缓存优化 bug 导致推理历史被持续丢弃（3月26日）：本意是在 session 空闲一小时后清除旧推理内容以降低延迟，但 bug 导致每个 turn 都清除，使得 Claude 变得健忘、重复、做出奇怪的工具选择。4月10日修复。
系统提示词加入长度限制（4月16日）：添加了"工具调用之间的文字 ≤25 词，最终回复 ≤100 词"的限制，但导致代码质量下降 3%。4月20日回滚。

值得关注的是：Opus 4.7 在拿到完整代码仓库上下文后找到了这个 bug，而 Opus 4.6 没有。Anthropic 宣布将采取更多措施防止类似问题——更多员工使用公开版 Claude Code、对系统提示词变更增加更严格的评估和逐步发布流程、创建 @ClaudeDevs 账号来深度解释产品决策。所有用户的使用限额已于 4月23 日重置。

https://www.anthropic.com/engineering/april-23-postmortem

Claude Blog：Claude 连接器扩展至日常生活

Claude 的连接器生态从工作工具扩展到了日常应用：AllTrails（户外徒步）、Instacart（生鲜配送）、Audible（有声书）、Tripadvisor（旅行）、TurboTax（报税）、Spotify、Uber、Uber Eats 等。连接器现在会动态出现在对话中——Claude 会根据你正在做的事情智能推荐合适的应用，比如推荐周末徒步路线时自动调出 AllTrails。当多个应用都可能有帮助时，Claude 会全部展示、由用户选择。Anthropic 强调 Claude 没有广告、没有付费置顶，连接的应用数据不会用于模型训练。

https://claude.com/blog/connectors-for-everyday-life

Claude Blog：Claude Managed Agents 内置记忆功能

Managed Agents 的记忆层进入公开测试。记忆以文件系统形式挂载，Claude 可以像使用 bash 和代码执行一样自然地管理记忆——最新模型能保存更全面、更有组织的记忆，也能更好判断什么值得记住。记忆可跨 agent 共享、支持权限控制、提供完整审计日志。Netflix 用记忆让 agent 跨 session 携带上下文；Rakuten 的长运行 agent 通过记忆学习避免了重复错误，将首次通过错误率降低 97%；Wisedocs 用跨 session 记忆加速文档验证 30%。

https://claude.com/blog/claude-managed-agents-memory

🎙️ 播客

AI & I by Every：Claude 平台的秘密——与构建团队对话

本期嘉宾是 Anthropic 的 Angela（Claude 平台产品负责人）和 Caitlin（Claude 平台工程负责人）。他们深入讨论了 AI 平台从 GPT-3 时代的 completion endpoint 演变为今天包含记忆、文件系统、多 agent 编排的完整平台。

核心观点：

平台在追求"压缩到两个参数"——结果和预算。未来的愿景是 Claude 足够理解自己，能自己判断该用哪个模型、如何调度子 agent、甚至"在运行中写自己"。用户不再需要思考 harness 架构或 prompt engineering。

关于"我应该自己建 agent 还是等平台提供"：Anthropic 内部自己跑够了 agent 基础设施的痛苦后才决定做成产品。“在几台 Mac Mini 上跑 agent 可以，但当你要把 agent 嵌入产品、真正规模化运行时，基础设施会变得非常困难。”

记忆不是事后补救的补丁——他们尝试了多种 harness 方案，不同方案在评估集上表现差异巨大。他们最终迭代出的方案让 agent 通过文件系统管理记忆，配合 bash 和代码执行能力。

多 agent 编排的 LEGO 式设计也很精彩：有分离执行和建议的 advisor 模式、有对抗性双 agent 模式、有拆分后合并的 swarm 模式——不同架构适合不同场景（深度研究 vs bug 狩猎）。

Agent 的生命周期管理：当新模型发布时如何升级或退役旧 agent 是一个真实问题。Anthropic 提供了 skill 来辅助模型升级流程，而一些最激进的团队已经在用 agent 监控其他 agent 是否需要更新。

最令人印象深刻的引述：当被问到一年后平台会是什么样时，Caitlin 回答——“在那个世界里，如果 Claude 在运行中实时重写自己、你的 agent 在实时变成它们需要变成的样子，平台必须严肃地规模化。我绝不想让平台扩展能力成为人们实现目标的障碍。”

https://www.youtube.com/watch?v=lLypHkIVLqc