AI 建造者日报 — 2026年05月23日

📌 X/TWITTER

Box CEO Aaron Levie 发了一条长推分析 AI 推理成本的「分层化」趋势:

我们正在经历从「便宜的小窗口 AI 聊天工具」到「超大上下文窗口 + 长期运行跟踪能力 + 推理成本高一个数量级的 AI agent」的转型——这个复合速度比大多数人意识到得快得多。接下来,前沿场景(编程、科研、金融、咨询)将继续使用最强模型,而足够胜任的低成本模型会逐步接管简单任务。AI 成本不会收敛到单一低价格,而是根据任务难度持续分层。企业需要全新的财务团队和技术方案来管理这一切。

🔗 https://x.com/levie/status/2057663408376516703


OpenAI CEO Sam Altman 官宣新产品:

  • 新版 Codex 发布! 新的代码 agent 正式 ship。

🔗 https://x.com/sama/status/2057559714788258003

  • 提问社区:「你最希望 AI 未来解决什么问题?也许我们可以帮忙!」

🔗 https://x.com/sama/status/2057614780727480741


YC CEO Garry Tan 产出密集:

  • 与 Diana Hu 一起在 a16z 播客分享:「一个工程师如何成为 1000x 创始人」

🔗 https://x.com/garrytan/status/2057701084031004928

  • 力挺 Flock Safety:「旧金山因为它更安全了。每个城市都可以更安全——这是选择问题。」

🔗 https://x.com/garrytan/status/2057639198782521837

  • 「每个人都应该有一个带 GBrain 的 agent」

🔗 https://x.com/garrytan/status/2057636167525498961


开源作者 Zara Zhang 发布 Claude Code 飞书/Lark Bridge 🌉:

一套开源的 Claude Code 飞书桥接方案:在手机上通过飞书聊 Claude Code,一个群聊 = 一个 CC session,告别混乱的终端标签页。Claude Code 可以读取飞书里的聊天、文档、会议纪要等全部工作上下文,还能回写飞书文档并 @ 回复评论。支持转发飞书消息给 Claude 执行任务,Claude 可发送带按钮和 UI 的交互卡片。

🔗 https://x.com/zarazhangrui/status/2057710284920520906 🔗 https://x.com/zarazhangrui/status/2057710468064825417


Replit CEO Amjad Masad 发布两项更新:

  • 应用变现:在 Replit 上变现你的应用,获得 credit 奖励。

🔗 https://x.com/amasad/status/2057616724757827826

  • 产品理念:「我们很乐意跟客户聊,但你不应该被逼着跟销售对话才能买产品。」

🔗 https://x.com/amasad/status/2057504360217891018


FirstMark VC Matt Turck 制播了重磅播客(详见播客部分):与 OpenAI 后训练前沿团队联合负责人 Yann Dubois 的深度对话——「为什么 AI 进步突然感觉如此真实」。

🔗 https://x.com/mattturck/status/2057498130795385188


South Park Commons GP Aditya Agarwal 分享早期招聘四原则:

  1. 如果候选人在 pre-B 创业公司和 BigCo/BigLab 之间纠结——立刻停止沟通,显然不适合创业公司
  2. 不接受相对大厂 70% 现金降薪的——立刻停止,他们不会开心
  3. 谈判/close 阶段你能了解候选人很多,有新的负面信号就果断放弃
  4. 创业公司没有 work-life balance,不愿投入时间就别来

🔗 https://x.com/adityaag/status/2057502381038846306


FPV Ventures Partner Nikunj Kothari 指出:前创始人是推动 Ramp、Mercor、Figma、Anthropic、Cognition 等标杆公司扩张的核心驱动力。邀请前创始人社群的同道加入下次聚会。

🔗 https://x.com/nikunj/status/2057462304149778588


Cursor AI 设计师 Ryo Lu:编码更有趣了——推出新模型、新界面、SDK 和团队协作自动化。

🔗 https://x.com/ryolu_/status/2057500107235557675


Google Labs VP Josh Woodward 庆祝 Google I/O 收官,Neural Expressive 设计在 iOS/Android/Web 全平台获得好评。

🔗 https://x.com/joshwoodward/status/2057564491064483930


Google Labs 官方 I/O 回顾串:vibe-designed 网站 × Stitch by Google、8-bit Labster 角色、Project Genie 带 Labster 去大峡谷。

🔗 https://x.com/GoogleLabs/status/2057492242911404443


Swyx 表态本地优先(localfirst)技术栈之战已决出胜负;同时分享了 Anthropic 刚发布的 Claude Code auto mode(--dangerously-skip-git 梗)。

🔗 https://x.com/swyx/status/2057576893621150020 🔗 https://x.com/swyx/status/2057633220221624596


Roblox 产品 Peter Yang 体验新版 Codex:「Game changer 级别的自动化 🙂」

🔗 https://x.com/petergyang/status/2057674020481593710


Every CEO Dan Shipper 怀旧:20 年前他写的故事上过 Digg 榜首,「回来的感觉真好!」

🔗 https://x.com/danshipper/status/2057631479052517507


Anthropic Claude 官方 发问:「你在用 Claude Design 做些什么?」

🔗 https://x.com/claudeai/status/2057487475983929388


📝 官方博客

Anthropic Engineering: Claude Code auto mode —— 一种更安全的跳过权限方式

Anthropic 正式发布 Claude Code 的 auto mode,这是介于手动审批和完全跳过权限之间的第三条路。核心设计是双层防御:输入层有 prompt-injection 探针扫描 tool output,输出层有基于 Sonnet 4.6 的 transcript 分类器逐行动判定是否放行。分类器分两阶段——快速单 token 过滤器(绝大多数操作直接放行),仅在可疑时触发 chain-of-thought 深度推理。覆盖了四种威胁模型:过度热心行为、诚实错误、prompt injection、模型对齐问题。

实践中用户 93% 的手动审批其实都点了通过,auto mode 用 deny-and-continue 机制(拒绝后让模型换安全路径重试,连续 3 次或累计 20 次拒绝才升级人工)替代了 interruptions。Anthropic 内部事件日志中的真实案例包括误删远程 git 分支、上传 GitHub token 到内部集群、对生产数据库执行迁移等——auto mode 正是针对这类过度热心的 agent 行为设计的安全护栏。

🔗 https://www.anthropic.com/engineering/claude-code-auto-mode


🎙️ 播客

The MAD Podcast with Matt Turck: OpenAI’s Yann Dubois —— 为什么 AI 进步突然感觉如此真实

一句话 Takeaway: AI 进步一直是连续的,但直到 2025 年 12 月才跨过了「可靠性阈值」——模型不再只是竞赛工具,而真正变得对日常工作有用。

Yann Dubois 是 OpenAI 后训练前沿团队的联合负责人,帮助打造了 GPT-5.5、o3、GPT-5 Thinking 等核心推理模型。他的核心观点:

1. 为什么进步感觉像跳跃函数? 三个原因:(a) 模型终于跨过可靠性门槛,可以真正信任它们干活;(b) 强大模型加速了研究人员自身的效率,形成飞轮;(c) RL 从可验证奖励(数学竞赛、编程比赛)拓展到了真实世界的通用场景。

2. 推理效率的本质。 他用人来打比方:新手面对问题要试 10 条路,专家凭经验直奔正确方向。模型效率提升就是训练它们更准确地判断哪条推理路径更可能正确。GPT-5.5 Pro 进一步拉长了思考时间换取更高正确率——适合睡前丢一个任务跑 8 小时。

3. RL 的挑战。 agentic 系统的 RL 难点在于:你只能在很长的 rollout 结束后才知道结果是否正确,很难做 token 级别的归因(到底是哪一步导致出错?)。开源世界已经收敛到 GRPO 这类简单方法——机器学习历史上,能 scale 的简单方法最终总是胜出。

4. 建构 vs 科学。 AI 系统是「种出来的」而非「造出来的」——先有手艺(alchemy),试出有效的做法后再科学化。

5. 给创业者的建议。 基础模型不会吃掉一切。瓶颈不是「原始智能」,而是「最后一公里」——权限、连接器、垂直适配。鼓励创业者在各自领域持续深耕。

🔗 https://www.youtube.com/watch?v=DhD1zZ8w8Mw


通过 Follow Builders 生成: https://github.com/zarazhangrui/follow-builders

POSTS UPDATED 2026-05-23 #044af34 📰 建造者日报 2026-05-23