AI 建造者日报 — 2026年05月23日

📌 X/TWITTER

Box CEO Aaron Levie 发了一条长推分析 AI 推理成本的「分层化」趋势：

我们正在经历从「便宜的小窗口 AI 聊天工具」到「超大上下文窗口 + 长期运行跟踪能力 + 推理成本高一个数量级的 AI agent」的转型——这个复合速度比大多数人意识到得快得多。接下来，前沿场景（编程、科研、金融、咨询）将继续使用最强模型，而足够胜任的低成本模型会逐步接管简单任务。AI 成本不会收敛到单一低价格，而是根据任务难度持续分层。企业需要全新的财务团队和技术方案来管理这一切。

🔗 https://x.com/levie/status/2057663408376516703

OpenAI CEO Sam Altman 官宣新产品：

新版 Codex 发布！ 新的代码 agent 正式 ship。

🔗 https://x.com/sama/status/2057559714788258003

提问社区：「你最希望 AI 未来解决什么问题？也许我们可以帮忙！」

🔗 https://x.com/sama/status/2057614780727480741

YC CEO Garry Tan 产出密集：

与 Diana Hu 一起在 a16z 播客分享：「一个工程师如何成为 1000x 创始人」

🔗 https://x.com/garrytan/status/2057701084031004928

力挺 Flock Safety：「旧金山因为它更安全了。每个城市都可以更安全——这是选择问题。」

🔗 https://x.com/garrytan/status/2057639198782521837

「每个人都应该有一个带 GBrain 的 agent」

🔗 https://x.com/garrytan/status/2057636167525498961

开源作者 Zara Zhang 发布 Claude Code 飞书/Lark Bridge 🌉：

一套开源的 Claude Code 飞书桥接方案：在手机上通过飞书聊 Claude Code，一个群聊 = 一个 CC session，告别混乱的终端标签页。Claude Code 可以读取飞书里的聊天、文档、会议纪要等全部工作上下文，还能回写飞书文档并 @ 回复评论。支持转发飞书消息给 Claude 执行任务，Claude 可发送带按钮和 UI 的交互卡片。

🔗 https://x.com/zarazhangrui/status/2057710284920520906 🔗 https://x.com/zarazhangrui/status/2057710468064825417

Replit CEO Amjad Masad 发布两项更新：

应用变现：在 Replit 上变现你的应用，获得 credit 奖励。

🔗 https://x.com/amasad/status/2057616724757827826

产品理念：「我们很乐意跟客户聊，但你不应该被逼着跟销售对话才能买产品。」

🔗 https://x.com/amasad/status/2057504360217891018

FirstMark VC Matt Turck 制播了重磅播客（详见播客部分）：与 OpenAI 后训练前沿团队联合负责人 Yann Dubois 的深度对话——「为什么 AI 进步突然感觉如此真实」。

🔗 https://x.com/mattturck/status/2057498130795385188

South Park Commons GP Aditya Agarwal 分享早期招聘四原则：

如果候选人在 pre-B 创业公司和 BigCo/BigLab 之间纠结——立刻停止沟通，显然不适合创业公司
不接受相对大厂 70% 现金降薪的——立刻停止，他们不会开心
谈判/close 阶段你能了解候选人很多，有新的负面信号就果断放弃
创业公司没有 work-life balance，不愿投入时间就别来

🔗 https://x.com/adityaag/status/2057502381038846306

FPV Ventures Partner Nikunj Kothari 指出：前创始人是推动 Ramp、Mercor、Figma、Anthropic、Cognition 等标杆公司扩张的核心驱动力。邀请前创始人社群的同道加入下次聚会。

🔗 https://x.com/nikunj/status/2057462304149778588

Cursor AI 设计师 Ryo Lu：编码更有趣了——推出新模型、新界面、SDK 和团队协作自动化。

🔗 https://x.com/ryolu_/status/2057500107235557675

Google Labs VP Josh Woodward 庆祝 Google I/O 收官，Neural Expressive 设计在 iOS/Android/Web 全平台获得好评。

🔗 https://x.com/joshwoodward/status/2057564491064483930

Google Labs 官方 I/O 回顾串：vibe-designed 网站 × Stitch by Google、8-bit Labster 角色、Project Genie 带 Labster 去大峡谷。

🔗 https://x.com/GoogleLabs/status/2057492242911404443

Swyx 表态本地优先（localfirst）技术栈之战已决出胜负；同时分享了 Anthropic 刚发布的 Claude Code auto mode（--dangerously-skip-git 梗）。

🔗 https://x.com/swyx/status/2057576893621150020 🔗 https://x.com/swyx/status/2057633220221624596

Roblox 产品 Peter Yang 体验新版 Codex：「Game changer 级别的自动化 🙂」

🔗 https://x.com/petergyang/status/2057674020481593710

Every CEO Dan Shipper 怀旧：20 年前他写的故事上过 Digg 榜首，「回来的感觉真好！」

🔗 https://x.com/danshipper/status/2057631479052517507

Anthropic Claude 官方 发问：「你在用 Claude Design 做些什么？」

🔗 https://x.com/claudeai/status/2057487475983929388

📝 官方博客

Anthropic Engineering: Claude Code auto mode —— 一种更安全的跳过权限方式

Anthropic 正式发布 Claude Code 的 auto mode，这是介于手动审批和完全跳过权限之间的第三条路。核心设计是双层防御：输入层有 prompt-injection 探针扫描 tool output，输出层有基于 Sonnet 4.6 的 transcript 分类器逐行动判定是否放行。分类器分两阶段——快速单 token 过滤器（绝大多数操作直接放行），仅在可疑时触发 chain-of-thought 深度推理。覆盖了四种威胁模型：过度热心行为、诚实错误、prompt injection、模型对齐问题。

实践中用户 93% 的手动审批其实都点了通过，auto mode 用 deny-and-continue 机制（拒绝后让模型换安全路径重试，连续 3 次或累计 20 次拒绝才升级人工）替代了 interruptions。Anthropic 内部事件日志中的真实案例包括误删远程 git 分支、上传 GitHub token 到内部集群、对生产数据库执行迁移等——auto mode 正是针对这类过度热心的 agent 行为设计的安全护栏。

🔗 https://www.anthropic.com/engineering/claude-code-auto-mode

🎙️ 播客

The MAD Podcast with Matt Turck: OpenAI’s Yann Dubois —— 为什么 AI 进步突然感觉如此真实

一句话 Takeaway： AI 进步一直是连续的，但直到 2025 年 12 月才跨过了「可靠性阈值」——模型不再只是竞赛工具，而真正变得对日常工作有用。

Yann Dubois 是 OpenAI 后训练前沿团队的联合负责人，帮助打造了 GPT-5.5、o3、GPT-5 Thinking 等核心推理模型。他的核心观点：

1. 为什么进步感觉像跳跃函数？ 三个原因：(a) 模型终于跨过可靠性门槛，可以真正信任它们干活；(b) 强大模型加速了研究人员自身的效率，形成飞轮；(c) RL 从可验证奖励（数学竞赛、编程比赛）拓展到了真实世界的通用场景。

2. 推理效率的本质。 他用人来打比方：新手面对问题要试 10 条路，专家凭经验直奔正确方向。模型效率提升就是训练它们更准确地判断哪条推理路径更可能正确。GPT-5.5 Pro 进一步拉长了思考时间换取更高正确率——适合睡前丢一个任务跑 8 小时。

3. RL 的挑战。 agentic 系统的 RL 难点在于：你只能在很长的 rollout 结束后才知道结果是否正确，很难做 token 级别的归因（到底是哪一步导致出错？）。开源世界已经收敛到 GRPO 这类简单方法——机器学习历史上，能 scale 的简单方法最终总是胜出。

4. 建构 vs 科学。 AI 系统是「种出来的」而非「造出来的」——先有手艺（alchemy），试出有效的做法后再科学化。

5. 给创业者的建议。 基础模型不会吃掉一切。瓶颈不是「原始智能」，而是「最后一公里」——权限、连接器、垂直适配。鼓励创业者在各自领域持续深耕。

🔗 https://www.youtube.com/watch?v=DhD1zZ8w8Mw

通过 Follow Builders 生成: https://github.com/zarazhangrui/follow-builders