AI 建造者日报 — 2026年05月21日

📌 X/TWITTER

Andrej Karpathy — 前 Tesla AI 总监、OpenAI 创始团队成员

个人动态：Karpathy 宣布加入 Anthropic。他认为未来几年 LLM 前沿领域将尤为关键，对加入 Anthropic 团队重返研发感到兴奋，同时表示对教育事业仍怀有深厚热情，日后将继续推进。这条推文收获超过 13 万点赞，成为本周 AI 圈最重磅的人事变动。

🔗 https://x.com/karpathy/status/2056753169888334312

Sam Altman — OpenAI CEO

OpenAI 宣布向当前 YC 批次每家创业公司投资 200 万美元的 token 额度。Altman 称他期待看到「tokenmaxxing」创业公司如何运作和构建产品。此前 Altman 透露，客户越来越要求算力保障，OpenAI 正为 1-3 年的长期承诺提供折扣 token，并计划持续建设尽可能多的算力——预计世界将在一段时间内面临算力瓶颈。

🔗 https://x.com/sama/status/2056933166875857290 🔗 https://x.com/sama/status/2056827105401614656

Josh Woodward — Google VP，负责 Gemini App 与 Google AI Studio

Google 发布 Gemini Spark——一款 24/7 个人 AI 代理，可主动管理任务并帮助用户驾驭数字生活。本周向受信测试者开放，下周向美国 Google AI Ultra 订阅用户推出 Beta 版本。

🔗 https://x.com/joshwoodward/status/2056873495116845485

Google Labs

三重更新：1）Project Genie 大幅更新——支持 Google Maps 街景锚定的世界生成、创作库管理与外部分享，面向全球 Google AI Ultra 订阅者逐步开放；2）Flow（Google 的视频生成产品）迎来一周年纪念；3）推出 AlphaEvolve 与 Empirical Research Agent（ERA），一个可自主生成并评估数千种代码变体的代理式研究引擎，用于加速发现高级模型和算法。

🔗 https://x.com/GoogleLabs/status/2056872996988756228 🔗 https://x.com/GoogleLabs/status/2056812957775142985

Aaron Levie — Box CEO

两大议题：1）Token 成本正成为企业 AI 部署最激烈的讨论话题——Levie 刚参加完财富 500 强 CIO 晚宴，发现几乎没有人觉得找到了合适的成本管控方案，企业策略五花八门，从按用户类型分级配模型到按团队设预算上限，无一统一；2）Box 在自有 AI 复杂工作评测中对 Gemini 3.5 Flash 进行了测试，模型在复杂文档任务上整体提升 12 个百分点，医疗健康领域从 51% 跃升至 73%（+22pp），公共部门从 59% 升至 76%（+17pp）。Gemini 3.5 Flash 即将在 Box AI Studio 和 Box API 中可用。

🔗 https://x.com/levie/status/2056965292753146019 🔗 https://x.com/levie/status/2056804573449474527

Guillermo Rauch — Vercel CEO

三件事：1）Vercel 推出新的 CDN 定价模型，平滑处理流量峰值和病毒式传播事件，在不牺牲质量和网络性能的前提下消除意外账单；2）Claude Managed Agents 与 Vercel Sandbox 集成正式发布；3）分享了一个用 Svelte + Three.js + Vercel 构建的 rerun.io 可视化项目。

🔗 https://x.com/rauchg/status/2056802789477740713 🔗 https://x.com/rauchg/status/2056735989830471977 🔗 https://x.com/rauchg/status/2056734559048536070

Matt Turck — FirstMark Capital VC，MAD Podcast 主持人

对 Google Gemini 3.5 Flash 的评价：「Google 今天发布了令人印象深刻的版本（还记得他们落后的时候吗？）」他指出 Gemini 3.5 Flash 在多模态 MMMU-Pro 达 83.6%，终端基准测试（Terminal-Bench）达 76.2%，金融代理评测达 57.9%，强调三大实验室的竞争让所有人受益。此外他调侃道 Anthropic 因 Karpathy 加入而「封圣」。

🔗 https://x.com/mattturck/status/2056834038946775343

Claude（Anthropic 官方）

三项发布：1）推出「The Problem Solvers」系列，聚焦使用 Claude 攻克难题的创始人，首期介绍 Cognition 团队和 Devin AI 软件工程师；2）Scott Wu 详述如何让每个工程团队构建软件的速度提升 10 倍；3）Claude 平台上线自托管沙箱与 MCP 隧道（处于研究预览阶段）。

🔗 https://x.com/claudeai/status/2056805730359931007 🔗 https://x.com/claudeai/status/2056805728774402428 🔗 https://x.com/claudeai/status/2056645493493575681

Ryo Lu — Cursor AI 设计师，前 Notion、Stripe 成员

坦言自己现在对 Cursor Composer 2.5 全面依赖：「用 Composer 2.5 做规划、用 Composer 2.5 做构建和迭代、用 Composer 2.5 做调试——一个全能选手，尤其在 UI 工作中，Design Mode 让你进入心流状态。」此外展示了 Cursor 直接操作 Jira 把 backlog 变成现实的能力。

🔗 https://x.com/ryolu_/status/2056892527626817935 🔗 https://x.com/ryolu_/status/2056878599333102053

Nikunj Kothari — FPV Ventures 合伙人

核心观点：即使在湾区的 AI 信徒中，也极少有人真正消化了「我们已经从 AI 助手 → AI 同事 → 即将进入自主工作者时代」这一事实。他认为模型能力的提升、实验室对长周期任务 RL 数据的渴求、以及越来越长的模型 harness，都在指向同一个方向。AI 已进入「扩散时代」——不是扩散模型，而是 AI 需要被扩散到一切事物中，这需要 10-20 年。

🔗 https://x.com/nikunj/status/2056865808832397344

swyx — Latent Space 播客主持人

分享了 AI 辅助软件开发生命周期的四步工作流：1）建立约 50 个测试，并指示 AI 在浏览器端到端测试中使用计算机视觉进行设计审查；2）让 AI 制定计划拆分热路径文件以便编辑，添加日志和错误边界；3）在计划指导下逐片推进，定期提交、部署、测试，不完成所有工作不停止；4）定期抽查已部署功能并实时纠偏。他也表达了对 Cursor 被 Windsurf 追上的担忧。

🔗 https://x.com/swyx/status/2056877529991205072

Garry Tan — Y Combinator CEO

三点观察：1）对「tokenmaxxing」概念表示认同（呼应 Altman 对 YC 批次的 token 投资）；2）提出 GBrain 的概念——当年微软 WinFS 尝试未果，如今有了 LLM，这个愿景终于可以实现了；3）分享了自己在 Rick Rubin 和 Slipknot 的 Clown 之后上播客的独特体验，顺带说「代码也可以是艺术」。

🔗 https://x.com/garrytan/status/2056931642967798226 🔗 https://x.com/garrytan/status/2056967665001082919

Peter Yang — Roblox 产品经理，AI 教程创作者

Google I/O 见闻与反思：他在 PM 和创作者双重身份中思考——不想只做一个举着自拍杆的「网红」，而想做一个真正的建造者，把学习心得（包括错误）分享给大家。他引用一位 builder 的话：「大量尝试，在构建中学习」「需要 3-4 次迭代才能发现什么起飞」「我们只有 90 天路线图，运气好是 120 天」「我不知道我们还会不会回到一年路线图的时代——我已经 5 年没碰过那种东西了」。

🔗 https://x.com/petergyang/status/2056927645657641378 🔗 https://x.com/petergyang/status/2056953057066598805

Dan Shipper — Every CEO

Karpathy 加入 Anthropic 的消息引发了他的强烈反应，一条「what did karpathy see」引发 1500+ 点赞和 232 条讨论，成为当天讨论热度最高的回应之一。

🔗 https://x.com/danshipper/status/2056762096352649421

Aditya Agarwal — South Park Commons GP，前 Dropbox CTO

展望 AI 与物理世界（Atoms）的交汇点：「未来是光明的，AI+Atoms 的交汇处将诞生令人惊叹的事物。」

🔗 https://x.com/adityaag/status/2056747510736249162

📝 官方博客

Anthropic Engineering — Scaling Managed Agents: Decoupling the brain from the hands

Anthropic 工程团队深入剖析了 Managed Agents 的架构演进。核心思想是「脑手分离」：将 Claude 及其 harness（大脑）与执行沙箱（双手）和会话日志（记忆）解耦，每个组件可独立替换和故障恢复。关键设计决策包括：harness 从容器中移出，通过 execute() 接口调用沙箱；会话日志作为持久化的「上下文对象」存储在 Claude 上下文窗口之外；容器变为「牛群」（cattle）而非「宠物」（pet），故障容器可以重新初始化而非人工抢救。架构分离使 p50 首 token 延迟降低约 60%，p95 降低超 90%。安全方面，token 永远不进入沙箱——认证与资源捆绑或存储在安全保管库中，通过 MCP 代理完成调用。文章明确指出 Managed Agents 是一个「元 harness」，对具体 harness 实现保持中立，为未来的 Claude 智能升级预留了灵活空间。

🔗 https://www.anthropic.com/engineering/managed-agents

Claude Blog — New in Claude Managed Agents: self-hosted sandboxes and MCP tunnels

Claude Managed Agents 正式上线自托管沙箱（公测）与 MCP 隧道（研究预览）。自托管沙箱让企业在自有基础设施或托管服务商（Cloudflare、Daytona、Modal、Vercel）上运行 agent 的工具执行，敏感文件和包不出企业边界。MCP 隧道允许 agent 访问私有网络内的 MCP 服务器而无需暴露到公网——内部数据库、私有 API、知识库和工单系统成为 agent 可调用的工具。已有 Amplitude、Clay、Rogo 等企业客户采用 Managed Agents 构建内部 agent。

🔗 https://claude.com/blog/claude-managed-agents-updates

🎙️ 播客

Training Data — Rebuilding IT From the Ground Up for the AI Age: Serval’s Jake Stauch

🔗 https://www.youtube.com/watch?v=j7ypvRUFY7M

一个值得记住的洞察： 企业自动化的瓶颈不是 AI 的能力，而是构建自动化本身的难度——只有当构建自动化比执行手动操作更简单时，人们才会选择自动化。

Serval 创始人兼 CEO Jake Stauch 要做的是 AI 原生的 ServiceNow。他的核心思路是保持「工作流 + 数据库」这一经典抽象，但让 AI 来构建工作流、更新数据库。他称之为「cogen 引擎」：用自然语言描述想要的工作流，包括步骤、权限、审批逻辑，系统即刻生成代码，零开发时间。

但他很快发现了一个反直觉的问题：当自动化变得如此简单，人们会疯狂创建重复的工作流——「有人一周内建了第 20 个密码重置工作流，AI 不知道该运行哪一个。」为此他们构建了一个上下文感知 agent，能识别重复、建议合并、划分分类。

在模型选择上，Serval 的做法很务实：与终端用户交互用 OpenAI 模型（GPT 系列），自动化代码生成用 Anthropic 模型（Sonnet/Opus）。但升级模型并非即插即用——新模型在某些方面更好、某些方面更差，旧模型的 prompt 调优和基础设施在新模型上不适用，有时甚至会降级回旧模型以保持行为可预测性。

关于应用层公司的护城河，Jake 的观点异常清醒：「新模型出现时你应该感到高兴。」Serval 的产品不是模型本身，而是模型的边界——权限、审批、API 集成范围、审计日志、告警。他们用双 agent 架构实现这点：管理员 agent 构建工具和技能，帮助台 agent 只能使用已批准的工具来服务最终用户。成本方面，由于生成的自动化实质是 TypeScript 代码而非每次重生成 token，Serval 的单位经济学异常优秀。「我告诉团队，多花钱，用最好的模型。我们清楚长线该往哪走。」

Jake 的客户理念也很极致——超过 100 个企业客户，他亲自加入每个客户的 Slack 频道、每天发言。「在实现速度越来越快的今天，创业公司的护城河越来越多地来自客户洞察和共情力。产品优势可以一夜之间被复制，但客户洞察的差异化优势更持久。」

通过 Follow Builders 生成: https://github.com/zarazhangrui/follow-builders