AI建造者日报 - 2026-05-20
🔧 AI建造者日报 — 2026-05-20
🐦 X/Twitter 动态
Andrej Karpathy(前Tesla AI总监、OpenAI创始团队成员)
📝 AI领域重磅消息:Andrej Karpathy 宣布正式加入 Anthropic,回归研发一线。他表示未来几年将是LLM前沿最具塑造力的阶段,自己非常兴奋能加入团队重新投入研发工作。同时他表示对教育仍怀有深厚热情,计划在未来恢复教育相关工作。这条推文获得了超过13万点赞,是AI圈近期最具影响力的动态之一。
🔗 来源:原推Swyx
📝 Swyx 分享了AI软件开发流程(AI SDLC)的四步方法论:1)建立约50个测试用例并持续增加;2)进行代码重构规划,隔离文件以便AI更高效编辑;3)允许破坏向后兼容性,一次性完成所有剩余工作;4)定期抽查已部署功能并即时修复。他还提到了 Cursor 编辑器中 RSI(重复性劳损)问题的解决方案,反映了他对AI编程工具工作流的深度实践。
🔗 来源:原推Josh Woodward(Google Gemini 副总裁)
📝 Google Gemini 团队 Josh Woodward 正式推出 Gemini Spark——一款24/7全天候个人AI代理,能主动管理任务并帮助用户驾驭数字生活。该产品本周将面向可信测试用户开放,下周将作为Beta版本提供给美国地区的 Google AI Ultra 订阅用户。这标志着Google在个人AI助手领域的重大布局。
🔗 来源:原推Peter Yang(Roblox 产品经理)
📝 Peter Yang 在Google IO大会上分享了PM与创作者双重身份的感悟,强调不想只做「网红」,更要保持「建造者」肌肉。他引用了关键观点:「多尝试、通过构建来学习」「需要3-4次迭代才能找到成功方向」「我们只有90天的路线图」。他还提到不确定是否会回到1年规划周期,反映了AI时代产品开发节奏的根本性变化。
🔗 来源:原推Thariq(Anthropic Claude Code 团队成员)
📝 Anthropic Claude Code 团队成员 Thariq 引用了 Karpathy 加入 Anthropic 的消息,并表示「未来是光明的,让我们开始工作」,展现了团队对AI前景的积极态度。他还分享了 Claude Blog 上的最新内容更新。
🔗 来源:原推Google Labs
📝 Google Labs 今日发布多项重磅更新:Project Genie 推出重大升级,支持基于 Google Maps 街景生成模拟世界、新增作品库管理和外部共享功能,并逐步面向全球 Google AI Ultra 订阅用户开放。此外庆祝 Flow by Google 上线一周年,从文本生成视频到 Omni、Agent 和工具的全线发展。同时发布基于 AlphaEvolve 和经验研究代理(ERA)的计算发现工具,能自动生成和评估数千种代码变体,大幅加速先进模型和算法的发现。
🔗 来源:原推Guillermo Rauch(Vercel CEO)
📝 Vercel CEO Guillermo Rauch 宣布了新的 CDN 定价模式,能够平滑流量峰值和病毒式传播事件带来的冲击,提供可预测的定价同时不牺牲网络性能。他还分享了 Claude Managed Agents 与 Vercel Sandbox 的集成合作。此外,他推荐了一个有趣的项目 rerun.io,一个基于 Svelte、Three.js 和 Vercel 构建的3D可视化工具。
🔗 来源:原推Aaron Levie(Box CEO)
📝 Box CEO Aaron Levie 透露了一个重要行业趋势:Token成本正在成为企业AI应用中最受关注的话题。在与众多财富500强企业CIO的交流中,他发现目前没有一家公司拥有完美的解决方案,大家都在探索多种策略——按用户类型分配不同Agent、设置团队支出上限、按用例证明AI价值等。此外,他还分享了 Box AI 对 Gemini 3.5 Flash 的评估结果:在复杂文档任务上相比 Gemini 3 Flash 提升12个百分点,其中金融服务+8pp、公共部门+17pp、医疗+22pp、生命科学+20pp。
🔗 来源:原推Ryo Lu(Cursor 设计师)
📝 Cursor 设计师 Ryo Lu 分享了他的日常工作流:全部使用 Composer 2.5 进行规划、构建迭代和调试,特别擅长UI工作,配合 Cursor 的 Design Mode 能进入高效心流状态。他还展示了 Cursor 与 Jira 的集成,可以直接将需求清单转化为实际代码,大幅提升开发效率。
🔗 来源:原推Garry Tan(Y Combinator CEO)
📝 Y Combinator CEO Garry Tan 分享了在播客中与 Rick Rubin 对话的感受,认为「代码也可以是艺术」。他还回顾了自己2003-2005年在微软参与 WinFS 项目的经历,认为LLM让当年的愿景终于可以实现——这就是 YC 的 GBrain 项目。他对 OpenAI 向YC创业公司投资200万美元Token的举措表示认可,称「Token最大化已确认」。
🔗 来源:原推Matt Turck
📝 FirstMark Capital 投资人 Matt Turck 高度评价 Google Gemini 3.5 Flash 的表现:在多模态任务中 MMMU-Pro 达到83.6%,Agent编码方面 Terminal-Bench 76.2%、Toolathon 56.5%,并在 SWE-Bench、OSWorld 等基准测试中领先。他认为虽然这只是基准测试且成本不低(约$9/M输出),但三大AI实验室的竞争让所有人都受益匪浅。他还幽默地评论 Karpathy 加入 Anthropic 是「AI界最神圣的任命」。
🔗 来源:原推Nikunj Kothari(FPV Ventures 合伙人)
📝 FPV Ventures 合伙人 Nikunj Kothari 提出了一个深刻洞察:即使在AI高度普及的湾区,也很少有人意识到我们已经从「助手」进化到「同事」,并即将进入「自主工作者」时代。他指出这体现在三个方面:a)各大实验室在RL环境中收集长周期任务数据;b)模型Harness支持越来越长的任务;c)模型递归纠错能力越来越强。他认为AI已正式进入「扩散时代」,将模型扩散到一切事物中需要未来10-20年。
🔗 来源:原推Dan Shipper(Every CEO)
📝 Every CEO Dan Shipper 对 Karpathy 加入 Anthropic 的反应是「WOW」,同时提出了一个引人深思的问题:「Karpathy看到了什么?」暗示这一人事变动背后可能隐藏着AI行业的深层变化趋势。他还预告了即将参加的演讲活动。
🔗 来源:原推Aditya Agarwal(South Park Commons 合伙人)
📝 South Park Commons 合伙人、Dropbox 前CTO Aditya Agarwal 表示「未来是光明的,我们将在AI与原子世界的交汇处看到令人惊叹的事物」,表达了对AI物理世界应用的乐观预期。
🔗 来源:原推Sam Altman
📝 OpenAI CEO Sam Altman 宣布了三项重要举措:1)OpenAI 向当前YC批次的所有创业公司投资200万美元的Token,鼓励「Token最大化」创业模式;2)提供1-3年合约的折扣Token,帮助客户规划算力需求;3)表示将竭尽所能尽快建设更多算力。他指出随着模型能力提升,全球将在一段时间内面临算力约束,提前锁定合约对客户和OpenAI都是双赢。
🔗 来源:原推Claude(Anthropic Claude 官方账号)
📝 Anthropic Claude 官方账号发布了多项动态:推出全新系列「The Problem Solvers」,展示创业者如何用 Claude 解决难题;介绍了 Cognition 公司(Devin 团队)创始人 Scott Wu 如何利用 Claude 让软件开发速度提升10倍;还宣布了 Claude Platform 上的自助托管沙盒(self-hosted sandboxes)和 MCP 隧道功能正式开放试用。
🔗 来源:原推
🎙️ 播客精华
- Training Data — Rebuilding IT From the Ground Up for the AI Age: Serval’s Jake Stauch
📝 本期播客邀请了 Serval 创始人兼CEO Jake Stauch,探讨如何用AI重建企业IT服务管理系统。Serval 定位为「AI原生的ServiceNow」,核心理念是让员工提出需求后即刻获得自动化的帮助,而非等待人工分配工单。Jake 分享了一个关键洞察:构建自动化流程的便捷程度必须不低于被自动化的工作本身,否则人们永远会选择手动操作。为此,Serval 开发了 co-gen 引擎,用自然语言描述工作流即可即时生成代码,几乎零开发时间。在模型选择上,Serval 发现 OpenAI 模型在终端用户交互方面表现最佳,而 Anthropic 模型在自动化代码生成方面更具优势。Jake 还分享了对「应用层公司如何建立护城河」的看法——他认为核心壁垒在于深度客户洞察而非产品功能,因为功能可以一夜之间被复制,但客户关系和对用户需求的理解才是真正的竞争优势。他本人每天活跃在所有客户的Slack频道中,服务超过100家企业客户。在成本控制方面,Serval 的商业模式不依赖转售Token,而是将自动化流程编译为可复用的TypeScript代码,使得单位经济效益远优于许多AI公司。
🔗 来源:Rebuilding IT From the Ground Up for the AI Age: Serval’s Jake Stauch
📝 官方博客
Anthropic Engineering:Scaling Managed Agents: Decoupling the brain from the hands
📝 Anthropic Engineering 团队发布长文详细介绍 Claude Managed Agents 的架构设计。文章提出核心理念:将Agent的「大脑」(Claude模型及其调度循环)与「双手」(沙盒执行环境)解耦。这一设计灵感来源于操作系统的虚拟化思想——将计算组件抽象为通用接口,使得底层实现可以自由更换而不影响上层应用。具体而言,Managed Agents 将Agent拆分为三个独立组件:Session(不可变的事件日志)、Harness(调度循环)和 Sandbox(代码执行环境)。这一架构带来了显著的性能提升:p50 首次Token延迟(TTFT)降低约60%,p95降低超过90%。安全性方面,通过令牌隔离机制确保沙盒中生成的代码无法访问凭证——Git令牌在沙盒初始化时注入,MCP工具的OAuth令牌存储在独立保险库中,调度循环完全不知情。文章还探讨了上下文工程的问题,Session作为Claude上下文窗口之外的持久化存储,允许模型灵活地检索、回溯和管理长周期任务的上下文。
🔗 来源:Scaling Managed Agents: Decoupling the brain from the handsClaude Blog:New in Claude Managed Agents: self-hosted sandboxes and MCP tunnels
📝 Claude Blog 宣布 Claude Managed Agents 支持自助托管沙盒和MCP隧道两大新功能。自助托管沙盒允许企业将Agent的工具执行环境部署在自己的基础设施上,或通过 Cloudflare、Daytona、Modal、Vercel 等托管服务商管理计算和隔离。这样企业可以在自有安全边界内运行Agent,敏感文件和数据不会离开企业网络,同时可以自定义计算资源配置以支持高负载任务。MCP隧道功能则允许Agent直接访问企业内部网络中的MCP服务器,无需将内部服务暴露到公网。通过轻量级网关建立单向出站连接,流量端到端加密,无需开放入站防火墙规则。目前自助托管沙盒处于公开Beta阶段,MCP隧道处于研究预览阶段。Amplitude、Clay、Rogo 等公司已在生产环境中使用这些功能。
🔗 来源:New in Claude Managed Agents: self-hosted sandboxes and MCP tunnels
📊 今日综合观察
今日AI圈的最大事件无疑是 Andrej Karpathy 宣布加入 Anthropic,这标志着顶级AI人才正加速向头部实验室集中。与此同时,OpenAI 推出「Token最大化」计划,向YC创业公司投资200万美元Token,反映出算力竞争正在从模型层向应用层延伸。Anthropic 则通过 Managed Agents 的重大更新展示了企业级Agent架构的最新进展——将大脑与双手解耦的设计思路,配合自助托管沙盒和MCP隧道,为企业安全部署Agent提供了完整方案。Google 也不甘示弱,Gemini 3.5 Flash 在多项基准测试中表现亮眼,同时推出 Gemini Spark 个人AI代理和 Project Genie 世界生成工具。从行业动态来看,企业Token成本管理正成为CIO们最关注的话题,而AI编程工具(Cursor、Composer 2.5)正在重塑开发者的工作流。整体趋势:AI正在从「能力竞赛」走向「规模化部署」阶段,安全、成本、可控性成为企业采用的关键考量。
内容来源:Follow Builders skill (https://github.com/zarazhangrui/follow-builders)