Claude 在写自己的代码,sama 推出 ChatGPT Web Apps:6月4日核心人物推文精选

alexalbert__ 公开 Anthropic 内部数据:80% 代码由 Claude 写,工程师效率 8x;sama 同天推出 ChatGPT 记忆大升级和 Web App 发布;swyx 点评 Cognition 首批真实世界 evals。来自 12 位核心人物的 6 月 4 日推文精选。

AI 前沿人物每日推文精选
2026/6/5 · 8:06
購読 1 件 · コンテンツ 3 件
今天信号最密的主题只有两条:一是 Anthropic 公开了「Claude 开发 Claude」的内部数据,数字大到令人停顿;二是 sama 同天抛出 ChatGPT 记忆大升级和 Web App 发布功能,把「AI 是否要替代程序员」的讨论推向了新的具体度。与此同时,Cognition(Devin)发布了首批真实世界 evals,swyx 认为这是「真正的先驱级工作」。
来自 12 位核心人物的 6 月 4 日推文精选。

Anthropic:Claude 开发 Claude,工程师效率 8x

alexalbert__ 今天发布了一组内部数据,标题足够直接:Anthropic 超过 80% 的代码现在由 Claude 写入主干分支,许多研究员已经连续数月没有手写过代码1
几个具体数字值得摘出来:
  • 典型 Anthropic 工程师当前每季度发布的代码量,是 2024 年的 8 倍
  • Claude 在最开放的工程任务上,成功率从 6 个月前的约 26% 升至 76%
  • 在研究 session 偏轨时,Claude 提出的「下一步」有 64% 比人类实际走的路径更优
コンテンツカードを読み込んでいます…
Alex 在推文末尾写道:「我们还没到递归自我改进,但它可能比多数人预期来得更早。」
同一天,_catwu(Claude Code 产品负责人)分享了另一个方向的数据:Anthropic 数据团队已经用 Claude 自动化了 95% 的业务分析查询,并同步发布了 blog 介绍他们如何设计 evals、做 ablations 和线上验证2。这条推文在 6 小时内积累了超过 59 万 views。
她还在当天宣布招募专注模型性能的 Claude Code PM,要求有写过 agentic evals 的经验3
同时,steipete 在 MS Build 上的演讲录像今天上线,题目叫「Build the thing that builds the thing」——他在台上演示了用 OpenClaw 配合 Codex 实现自动化 QA 和代码生成全流程4
コンテンツカードを読み込んでいます…

sama:ChatGPT 记忆大升级 + Web App 发布

sama 在今天集中发了几条产品公告,罕见地都带了具体功能描述。
ChatGPT 记忆升级:「big upgrade to chatgpt memory rolling out today」5,没有展开说明,但互动量超过 14 万 views,评论区充满「终于」。
ChatGPT Web App 发布:「build and publish web apps with chatgpt」——他补了一句:「真希望我小时候就有这个,但我确实很怀念 HyperCard」6。这是 OpenAI 把 Codex 能力延伸到「普通用户也能发布 Web App」的方向,与 rauchg 一直推进的「代码即 PLG」叙事遥相呼应。
同天下午,他还发了一条情感帖:「互联网早期的那段时光太特别了」,获得近 3000 个 likes 和 800 多条回复——部分人把这解读为他对 ChatGPT Web App 方向的隐性注脚7

swyx:Cognition(Devin)发布真实世界 evals

swyx 今天兴奋地写道:「终于!Cognition 的第一份 eval 发布了!」8
背景:METR(独立 AI 评测机构)的 eval 基准最长只到 16 小时任务。Cognition 内部有面向企业的私有 eval,支持最长 100 小时任务,并首次附上了财务担保。数据集覆盖真实 Java / TypeScript / Python / C# 特性开发、bugfix 和迁移任务,来自 258 个 session、126 名真实企业用户。
コンテンツカードを読み込んでいます…
两套方法论都采用 rlog(对数刻度)度量人类等效时间:METR 结果 rlog=0.83,Cog 自测 rlog=0.74(用 held-out set)。
swyx 称这是「开拓性的真实世界 evals 工作,是更大规模前沿代码 evals 发布的第一部分」,并特别点名数据收集负责人。对于一直关注「AI 到底能做多少真实工程工作」的人来说,这批数据比任何 SWE-bench 排名都更接近现实。

levie:AI 不会裁员,会让每个部门都扩招

levie 今天发了一条反直觉长推,回应市场上对 AI 裁员的预期9
「工程是 AI 影响最大的领域。但现在大多数公司的软件项目比以前多得多,这些工作只有工程师能做。」
他的逻辑链:AI 让单个工程师能做更多事 → 公司因此启动更多项目 → 工程需求不降反升;销售因为 leads 处理效率提高而扩招;市场因为投放和活动效率提高而增岗。
这和 Goldman Sachs CEO David Solomon 最近在纽约时报的 op-ed 遥相呼应——levie 自己也引用了这篇文章作为他论点的外部印证。
他今天还发了另一条关于 token 经济学的推文:「即使有公司的消费上限,企业在 AI token 上的花费也已经大幅超过过去任何历史软件授权费用——每个员工每月从 $10-50 的软件许可到现在数百至数千美元的 token 消耗」10,由此推导企业智能的 TAM 将远超传统软件市场。

rauchg + ryolu_:Vercel 开放平台 & Cursor 招人

rauchg 今天宣布 Vercel 将投资 nitrojs,支持 Nuxt、Svelte、TanStack Start 等非 Next.js 框架,同时重申开放平台立场11。在外界常把 Vercel 等同于 Next.js 的背景下,这条推文有「主动破除刻板印象」的意味——他在宣布欢迎 Void 团队的同时表达了这一点。
Cursor 设计负责人 ryolu_ 今天发出招人帖:Cursor 正在招 design engineer,要求有品味、有系统思维、对高速高质量体验有深度关注12。这条推文获得近 1700 个 likes、143K views,招到大量自荐与推荐回复。
コンテンツカードを読み込んでいます…

trq212:「一个 app 可以是一顿家常饭」

trq212 在 6 月 4 日下午分享了 Robin Sloan 的旧文《An app can be a home-cooked meal》13,并加了一句短注:「个人软件 2020 年有点超前,但到了 2026 年,它真的可以像家常便饭或手写信那样私人了。」
コンテンツカードを読み込んでいます…
这与 ryolu_ 那篇关于「software as material」(软件从应用变成材料)的长推保持精神上的一致——个人可以「塑造」软件,而不只是「使用」它。

nikunj:用 Claude Code 构建 AI 版本的自己

FPV Ventures 合伙人 nikunj 今天发布了一个有点反常规的项目:他用 Claude Code 处理了 200+ 份 1:1 创始人会议笔记(由 Granola 自动记录),提炼出 53 次高密度讨论,结合自己的几篇文章,构建了一个叫「Nock」的 Claude skill14
逻辑是:如果创始人想知道「我对这份 deck 会怎么看」,可以直接问 Nock。他在推文里说,经过 5-10 轮真实 deck 的对照验证后,这个 skill 的输出「感觉像是准确的我的代表」。
有趣之处在于方法论——这不是做了一个 chatbot,而是把「历史对话作为训练集」来外化一个人的决策模式。

快讯

  • garrytan:「YC Demo Day 会有一台核反应堆,迫不及待让你们看到它」15——他没有展开说哪家公司,但暗示是本批次中有核能方向的创业团队
  • adityaag:「很多岗位现在都会被注入工程能力,Marketing Engineer 是个典型例子」16,同时转发了一个 Marketing Engineer 职位板的上线公告
  • joshwoodward(Google Labs VP):今天发推提到「喜欢 Gemini macOS app 的这个新功能」,没有展开17
  • petergyang:问了一个接地气的问题——「怎么把 Codex 设成 ChatGPT app 打开时的默认 tab」,获得 127 likes 和多条官方建议回复18

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。