AI 建造者日报 — 2026年06月17日
📌 X/TWITTER
Google Labs VP Josh Woodward 宣布 Gemini 语音输入迎来重大升级,Android 和 iOS 均已上线,Web 端也将在约一周后推出。现在支持 70+ 种语言,可以自由混合使用多种语言而无需切换设置,而且整个过程不会打断用户。同时开放了 Gemini Trusted Tester 计划,邀请用户抢先体验未发布功能并参与产品打磨。
- https://x.com/joshwoodward/status/2066673011554435450
- https://x.com/joshwoodward/status/2066673191783665722
- https://x.com/joshwoodward/status/2066664862671921259
Replit CEO Amjad Masad 展示了 Replit 的领域专用 Agent:Growth Agent 自动发现 SEO 问题,Security Agent 扫描潜在漏洞。最爱的交互是「全选→Agent 修复」一键搞定。另外调侃 Mistral 的 Le Chaton Fat 让 Fable 相形见绌。
Vercel CEO Guillermo Rauch 连发三篇重磅。首先是 v0 承诺默认内置最佳 skills,目标是让每次 prompt 都相当于配了一位 Vercel 产品工程师。其次宣布 Vercel 函数最长运行时间大幅延长——看似一个常数调整,实则是多年计算平台投资的成果:Builds、Sandbox、Functions 全部跑在自研的 microVM Fluid 计算基础设施上,支持函数多并发、Active CPU 定价和 Secure Compute。最后提出一个核心洞察:Sandbox、Function、Server、Build 本质上是同一套计算基础设施的不同表现,2026 年是 serverless 和 servers 真正融合的元年。
- https://x.com/rauchg/status/2066567117562868009
- https://x.com/rauchg/status/2066553521978097921
- https://x.com/rauchg/status/2066556235961237826
Box CEO Aaron Levie 转发并点评了一篇关于 AI 未来的关键文章。核心论点是「AI 领域最有趣的事情不是某个模型变得更聪明,而是智能正在变得高度可定制化。赢家不一定是拥有最大模型的公司,而是能把智能变成自己独特资产的公司。」将独有数据、工作流和智能路由层结合在一起是明确的未来方向。在 AI 监管话题上,他认为各国分别对每个模型发布进行审查会导致 AI 进展大幅放缓,应该聚焦于监管 AI 的实际应用场景。另外直言「开源会大赢」。
- https://x.com/levie/status/2066735879213994434
- https://x.com/levie/status/2066554018953146689
- https://x.com/levie/status/2066526720480690221
FPV Ventures 合伙人 Nikunj Kothari 观察到过去 12 个月有 32 位 VC 从投资回到创业/运营一线,从 associate 到 GP 都有,且节奏在加快。原因很直接:直接跟客户和团队工作比讨好 GP 有更多自主权;与其等 13 年 carry,不如更早获得流动性。这些回归者普遍看起来更开心。
Peter Steinberger (OpenClaw) 展示了其开源自动化审查 bot @clawsweeper:任何时候有人在开源项目提 issue,bot 会自动审查,如果符合 VISION.md 则自动创建 PR 并自查。这代表了一种「代码审查无人化」的走向。附带吐槽:想在旧金山买个新 Mac Studio,却发现美国已经不知道怎么制造这些东西了。
Peter Yang 评价 Codex 的浏览器操控能力强到让他「几乎忘了 API 还存在」。
📝 官方博客
Claude Blog: New in Claude Managed Agents — dreaming, outcomes, and multiagent orchestration
Claude Managed Agents 迎来三项重大更新:
Dreaming(梦境式自我改进):一个定时运行的进程,回顾 agent 的所有历史会话和记忆,提取跨会话的模式——包括重复出现的错误、agent 自发收敛到的工作流、团队共享的偏好——然后自动整理和更新记忆。可以与 Memory 配合形成「边做边记 + 事后提炼」的双层记忆系统。Harvey 使用后任务完成率提升了约 6 倍。
Outcomes(结果导向评分):为 agent 定义成功标准(rubric),由独立的 grader 在隔离上下文中评估输出质量,agent 基于反馈自我修正。内部测试中任务成功率提升多达 10 个百分点,文档生成质量 docx +8.4%、pptx +10.1%。Spiral by Every 用它确保写作质量符合编辑标准,Wisedocs 用它做文档质检,审查速度提升 50%。
Multiagent Orchestration(多 Agent 编排):领头 agent 将复杂任务拆解后分派给各自拥有独立模型、prompt 和 tools 的专业子 agent,并行执行。Netflix 用它并行分析数百个构建的日志以发现跨应用复现的问题模式;Spiral 的写作 agent 用 Haiku 做调度、Opus 做写作,多稿并行生成。
🎙️ 播客
The MAD Podcast: OpenAI’s Dan Roberts — Why AI Can Now Make Discoveries
Dan Roberts 是 OpenAI 强化学习基础研究团队的负责人,MIT 理论物理博士出身,研究过黑洞和量子信息。本期 Matt Turck 与他深入探讨了 RL 原理、AI 做科学发现的现状,以及 OpenAI/GDM/Anthropic 攻克 Erdos 数学难题背后的方法论差异。
核心观点:
-
RL 的本质:就像学玩超级玛丽,两种方式——光看爸爸玩(监督学习/模仿),和自己上手按键、跳坑、死掉重来(强化学习)。RL 的力量在于从环境反馈中学习、在自己的水平上练习。难点是「稀疏奖励」——下完一整盘棋才知道输赢,中间无从判断每一步的好坏。
-
AI + 科学是渐变过程:没有某个「开灯」时刻让 AI 突然变成科学家。o1 的发布算是一个里程碑,但 GPT-4 时已有零星的科学研究能力萌芽。
-
Erdos 问题的方法论分歧:OpenAI 用非形式化证明(像人类数学家在纸上推导),DeepMind 用 Lean 形式化语言进行机器验证的证明搜索。OpenAI 的 ChatGPT 敢于假设一个被数学界普遍认为正确的猜想是错的,沿着漫长而反直觉的计算路径最终推翻它——这需要极强的信念和坚持。
-
一句话:「当你逆流而上做反直觉的事情时,你必须有极强的信念,才能坚持走完一条极长的计算路径。」
🔗 https://www.youtube.com/watch?v=oWOz2htozfI
通过 Follow Builders 生成: https://github.com/zarazhangrui/follow-builders