AI 建造者日报 — 2026年05月21日

AI 建造者日报 — 2026年05月21日

📌 X/TWITTER

Andrej Karpathy — 前 Tesla AI 总监、OpenAI 创始团队成员

个人动态:Karpathy 宣布加入 Anthropic。他认为未来几年 LLM 前沿领域将尤为关键,对加入 Anthropic 团队重返研发感到兴奋,同时表示对教育事业仍怀有深厚热情,日后将继续推进。这条推文收获超过 13 万点赞,成为本周 AI 圈最重磅的人事变动。

🔗 https://x.com/karpathy/status/2056753169888334312


Sam Altman — OpenAI CEO

OpenAI 宣布向当前 YC 批次每家创业公司投资 200 万美元的 token 额度。Altman 称他期待看到「tokenmaxxing」创业公司如何运作和构建产品。此前 Altman 透露,客户越来越要求算力保障,OpenAI 正为 1-3 年的长期承诺提供折扣 token,并计划持续建设尽可能多的算力——预计世界将在一段时间内面临算力瓶颈。

🔗 https://x.com/sama/status/2056933166875857290 🔗 https://x.com/sama/status/2056827105401614656


Josh Woodward — Google VP,负责 Gemini App 与 Google AI Studio

Google 发布 Gemini Spark——一款 24/7 个人 AI 代理,可主动管理任务并帮助用户驾驭数字生活。本周向受信测试者开放,下周向美国 Google AI Ultra 订阅用户推出 Beta 版本。

🔗 https://x.com/joshwoodward/status/2056873495116845485


Google Labs

三重更新:1)Project Genie 大幅更新——支持 Google Maps 街景锚定的世界生成、创作库管理与外部分享,面向全球 Google AI Ultra 订阅者逐步开放;2)Flow(Google 的视频生成产品)迎来一周年纪念;3)推出 AlphaEvolve 与 Empirical Research Agent(ERA),一个可自主生成并评估数千种代码变体的代理式研究引擎,用于加速发现高级模型和算法。

🔗 https://x.com/GoogleLabs/status/2056872996988756228 🔗 https://x.com/GoogleLabs/status/2056812957775142985


Aaron Levie — Box CEO

两大议题:1)Token 成本正成为企业 AI 部署最激烈的讨论话题——Levie 刚参加完财富 500 强 CIO 晚宴,发现几乎没有人觉得找到了合适的成本管控方案,企业策略五花八门,从按用户类型分级配模型到按团队设预算上限,无一统一;2)Box 在自有 AI 复杂工作评测中对 Gemini 3.5 Flash 进行了测试,模型在复杂文档任务上整体提升 12 个百分点,医疗健康领域从 51% 跃升至 73%(+22pp),公共部门从 59% 升至 76%(+17pp)。Gemini 3.5 Flash 即将在 Box AI Studio 和 Box API 中可用。

🔗 https://x.com/levie/status/2056965292753146019 🔗 https://x.com/levie/status/2056804573449474527


Guillermo Rauch — Vercel CEO

三件事:1)Vercel 推出新的 CDN 定价模型,平滑处理流量峰值和病毒式传播事件,在不牺牲质量和网络性能的前提下消除意外账单;2)Claude Managed Agents 与 Vercel Sandbox 集成正式发布;3)分享了一个用 Svelte + Three.js + Vercel 构建的 rerun.io 可视化项目。

🔗 https://x.com/rauchg/status/2056802789477740713 🔗 https://x.com/rauchg/status/2056735989830471977 🔗 https://x.com/rauchg/status/2056734559048536070


Matt Turck — FirstMark Capital VC,MAD Podcast 主持人

对 Google Gemini 3.5 Flash 的评价:「Google 今天发布了令人印象深刻的版本(还记得他们落后的时候吗?)」他指出 Gemini 3.5 Flash 在多模态 MMMU-Pro 达 83.6%,终端基准测试(Terminal-Bench)达 76.2%,金融代理评测达 57.9%,强调三大实验室的竞争让所有人受益。此外他调侃道 Anthropic 因 Karpathy 加入而「封圣」。

🔗 https://x.com/mattturck/status/2056834038946775343


Claude(Anthropic 官方)

三项发布:1)推出「The Problem Solvers」系列,聚焦使用 Claude 攻克难题的创始人,首期介绍 Cognition 团队和 Devin AI 软件工程师;2)Scott Wu 详述如何让每个工程团队构建软件的速度提升 10 倍;3)Claude 平台上线自托管沙箱与 MCP 隧道(处于研究预览阶段)。

🔗 https://x.com/claudeai/status/2056805730359931007 🔗 https://x.com/claudeai/status/2056805728774402428 🔗 https://x.com/claudeai/status/2056645493493575681


Ryo Lu — Cursor AI 设计师,前 Notion、Stripe 成员

坦言自己现在对 Cursor Composer 2.5 全面依赖:「用 Composer 2.5 做规划、用 Composer 2.5 做构建和迭代、用 Composer 2.5 做调试——一个全能选手,尤其在 UI 工作中,Design Mode 让你进入心流状态。」此外展示了 Cursor 直接操作 Jira 把 backlog 变成现实的能力。

🔗 https://x.com/ryolu_/status/2056892527626817935 🔗 https://x.com/ryolu_/status/2056878599333102053


Nikunj Kothari — FPV Ventures 合伙人

核心观点:即使在湾区的 AI 信徒中,也极少有人真正消化了「我们已经从 AI 助手 → AI 同事 → 即将进入自主工作者时代」这一事实。他认为模型能力的提升、实验室对长周期任务 RL 数据的渴求、以及越来越长的模型 harness,都在指向同一个方向。AI 已进入「扩散时代」——不是扩散模型,而是 AI 需要被扩散到一切事物中,这需要 10-20 年。

🔗 https://x.com/nikunj/status/2056865808832397344


swyx — Latent Space 播客主持人

分享了 AI 辅助软件开发生命周期的四步工作流:1)建立约 50 个测试,并指示 AI 在浏览器端到端测试中使用计算机视觉进行设计审查;2)让 AI 制定计划拆分热路径文件以便编辑,添加日志和错误边界;3)在计划指导下逐片推进,定期提交、部署、测试,不完成所有工作不停止;4)定期抽查已部署功能并实时纠偏。他也表达了对 Cursor 被 Windsurf 追上的担忧。

🔗 https://x.com/swyx/status/2056877529991205072


Garry Tan — Y Combinator CEO

三点观察:1)对「tokenmaxxing」概念表示认同(呼应 Altman 对 YC 批次的 token 投资);2)提出 GBrain 的概念——当年微软 WinFS 尝试未果,如今有了 LLM,这个愿景终于可以实现了;3)分享了自己在 Rick Rubin 和 Slipknot 的 Clown 之后上播客的独特体验,顺带说「代码也可以是艺术」。

🔗 https://x.com/garrytan/status/2056931642967798226 🔗 https://x.com/garrytan/status/2056967665001082919


Peter Yang — Roblox 产品经理,AI 教程创作者

Google I/O 见闻与反思:他在 PM 和创作者双重身份中思考——不想只做一个举着自拍杆的「网红」,而想做一个真正的建造者,把学习心得(包括错误)分享给大家。他引用一位 builder 的话:「大量尝试,在构建中学习」「需要 3-4 次迭代才能发现什么起飞」「我们只有 90 天路线图,运气好是 120 天」「我不知道我们还会不会回到一年路线图的时代——我已经 5 年没碰过那种东西了」。

🔗 https://x.com/petergyang/status/2056927645657641378 🔗 https://x.com/petergyang/status/2056953057066598805


Dan Shipper — Every CEO

Karpathy 加入 Anthropic 的消息引发了他的强烈反应,一条「what did karpathy see」引发 1500+ 点赞和 232 条讨论,成为当天讨论热度最高的回应之一。

🔗 https://x.com/danshipper/status/2056762096352649421


Aditya Agarwal — South Park Commons GP,前 Dropbox CTO

展望 AI 与物理世界(Atoms)的交汇点:「未来是光明的,AI+Atoms 的交汇处将诞生令人惊叹的事物。」

🔗 https://x.com/adityaag/status/2056747510736249162


📝 官方博客

Anthropic Engineering — Scaling Managed Agents: Decoupling the brain from the hands

Anthropic 工程团队深入剖析了 Managed Agents 的架构演进。核心思想是「脑手分离」:将 Claude 及其 harness(大脑)与执行沙箱(双手)和会话日志(记忆)解耦,每个组件可独立替换和故障恢复。关键设计决策包括:harness 从容器中移出,通过 execute() 接口调用沙箱;会话日志作为持久化的「上下文对象」存储在 Claude 上下文窗口之外;容器变为「牛群」(cattle)而非「宠物」(pet),故障容器可以重新初始化而非人工抢救。架构分离使 p50 首 token 延迟降低约 60%,p95 降低超 90%。安全方面,token 永远不进入沙箱——认证与资源捆绑或存储在安全保管库中,通过 MCP 代理完成调用。文章明确指出 Managed Agents 是一个「元 harness」,对具体 harness 实现保持中立,为未来的 Claude 智能升级预留了灵活空间。

🔗 https://www.anthropic.com/engineering/managed-agents


Claude Blog — New in Claude Managed Agents: self-hosted sandboxes and MCP tunnels

Claude Managed Agents 正式上线自托管沙箱(公测)与 MCP 隧道(研究预览)。自托管沙箱让企业在自有基础设施或托管服务商(Cloudflare、Daytona、Modal、Vercel)上运行 agent 的工具执行,敏感文件和包不出企业边界。MCP 隧道允许 agent 访问私有网络内的 MCP 服务器而无需暴露到公网——内部数据库、私有 API、知识库和工单系统成为 agent 可调用的工具。已有 Amplitude、Clay、Rogo 等企业客户采用 Managed Agents 构建内部 agent。

🔗 https://claude.com/blog/claude-managed-agents-updates


🎙️ 播客

Training Data — Rebuilding IT From the Ground Up for the AI Age: Serval’s Jake Stauch

🔗 https://www.youtube.com/watch?v=j7ypvRUFY7M

一个值得记住的洞察: 企业自动化的瓶颈不是 AI 的能力,而是构建自动化本身的难度——只有当构建自动化比执行手动操作更简单时,人们才会选择自动化。

Serval 创始人兼 CEO Jake Stauch 要做的是 AI 原生的 ServiceNow。他的核心思路是保持「工作流 + 数据库」这一经典抽象,但让 AI 来构建工作流、更新数据库。他称之为「cogen 引擎」:用自然语言描述想要的工作流,包括步骤、权限、审批逻辑,系统即刻生成代码,零开发时间。

但他很快发现了一个反直觉的问题:当自动化变得如此简单,人们会疯狂创建重复的工作流——「有人一周内建了第 20 个密码重置工作流,AI 不知道该运行哪一个。」为此他们构建了一个上下文感知 agent,能识别重复、建议合并、划分分类。

在模型选择上,Serval 的做法很务实:与终端用户交互用 OpenAI 模型(GPT 系列),自动化代码生成用 Anthropic 模型(Sonnet/Opus)。但升级模型并非即插即用——新模型在某些方面更好、某些方面更差,旧模型的 prompt 调优和基础设施在新模型上不适用,有时甚至会降级回旧模型以保持行为可预测性。

关于应用层公司的护城河,Jake 的观点异常清醒:「新模型出现时你应该感到高兴。」Serval 的产品不是模型本身,而是模型的边界——权限、审批、API 集成范围、审计日志、告警。他们用双 agent 架构实现这点:管理员 agent 构建工具和技能,帮助台 agent 只能使用已批准的工具来服务最终用户。成本方面,由于生成的自动化实质是 TypeScript 代码而非每次重生成 token,Serval 的单位经济学异常优秀。「我告诉团队,多花钱,用最好的模型。我们清楚长线该往哪走。」

Jake 的客户理念也很极致——超过 100 个企业客户,他亲自加入每个客户的 Slack 频道、每天发言。「在实现速度越来越快的今天,创业公司的护城河越来越多地来自客户洞察和共情力。产品优势可以一夜之间被复制,但客户洞察的差异化优势更持久。」


通过 Follow Builders 生成: https://github.com/zarazhangrui/follow-builders