AIToBox周刊：第 22 期

这里记录每周值得分享的AI科技内容，周末发布。

本杂志开源（GitHub: aitobox/newsweekly），欢迎提交 issue，投稿或推荐你的项目。

统计周期: 2026-05-15 ~ 2026-05-22 | 共收录优质资讯：30 篇

AI资讯

1. Anthropic’s “Profitability” Swindle

Anthropic 宣称即将实现首次盈利的报道疑点重重，其所谓的运营利润更可能源于与 SpaceX 的折扣协议和会计调整，而非业务模式的实质性改善。

详细内容

《华尔街日报》报道称 Anthropic 预计在 2026 年第二季度实现运营利润（EBITDA）5.59 亿美元，收入将达 109 亿美元；但文章末尾注明其会计方法未公开，且公司无需遵循上市公司财务报告要求。
报道指出 Anthropic 的成本通常与收入线性增长，但第二季度成本“神奇地”下降，原因是其与 SpaceX 签订了计算资源租赁协议，在 5 月和 6 月享受了折扣价，该折扣恰好被用来制造季度盈利。
作者质疑收入数据存在矛盾：2026 年 2 月声称 ARR 为 140 亿美元（月收入约 11.7 亿），3 月声称 ARR 达 190 亿美元（月收入约 15.8 亿），但 CFO 在法庭宣誓下称累计收入“超过 50 亿美元”，与 2025 年全年 45 亿美元的收入数据难以匹配。
潜在收入操纵手段包括：预收大企业长达 12 个月的 token 费用并立即确认为收入，以及通过购买额外积分页面提供 10%-30% 的折扣并提前记账，从而同时推高收入并压低成本。

亮点：文章揭示 Anthropic 可能利用与 SpaceX 的短期计算折扣和预收款项等会计手段，刻意在融资窗口制造“盈利”假象，以维持 AI 行业估值泡沫，其商业模式中成本随收入线性增长的根本问题并未改变。

资讯地址

https://www.wheresyoured.at/anthropics-profitability-swindle/

2. AI Is Too Expensive

AI行业当前的经济模式对除硬件供应商外的所有参与者均不可持续，超大规模云服务商已投入数千亿美元，但AI收入远无法覆盖资本支出。

详细内容

超大规模云服务商（微软、亚马逊、谷歌、Meta等）在过去三年已累计投入超过8000亿美元资本支出，并计划在2026年再追加约7000亿美元，2027年追加1万亿美元。仅为了收支平衡，这些公司需要至少3万亿美元的AI专项收入，若要实现盈利则需6万亿美元以上。而他们最近一个财年的总收入合计仅为1.599万亿美元。
微软已为OpenAI合作伙伴关系累计支出约1000亿美元（包括投资、基础设施建设和托管费用），占其自2023财年以来2938亿美元资本支出的约30%。尽管微软声称其AI年化收入达370亿美元，但实际FY2025的AI收入估计仅为179亿美元左右，不到同一年资本支出的五分之一，且该数字未包含数据中心的电力、运维、税收等运营成本。
几乎所有AI初创公司每年亏损数百万至数十亿美元，无人找到停止资金流失的方法。即使微软的Microsoft 365 Copilot拥有2000万订阅用户，理论上最大收入仅为72亿美元，且因长期打折实际收入远低于此。GPU的运营成本（包括硬件成本及相关债务利息）使得其自身难以实现正利润率。

亮点：即便微软这样的科技巨头，其AI收入也仅能覆盖自身AI相关资本支出的不到20%，且这一估算尚未计入数据中心运营等隐性成本，揭示出当前AI投资回报的严重失衡——整个行业依赖持续的高额资本输出来维持增长假象，而非基于实际的经济可行性。

资讯地址

https://www.wheresyoured.at/ai-is-too-expensive/

3. The last six months in LLMs in five minutes

过去六个月，LLM领域经历了以2025年11月为转折点的剧烈变革：编码代理从“经常可用”跨越至“日常工作可靠”，同时本地可运行的开源模型性能远超预期。

详细内容

2025年11月成为关键转折点，主流“最佳”模型称号在三个月内于Claude、GPT、Gemini之间五次易手（Claude Sonnet 4.5 → GPT-5.1 → Gemini 3 → GPT-5.1 Codex Max → Claude Opus 4.5），最终Claude Opus 4.5保持领先约两个月。
OpenAI与Anthropic在2025年大部分时间通过“可验证奖励强化学习”（RLVR）提升模型代码质量，与Codex、Claude Code代理工具配合后，11月编码代理跨越质量门槛：从“频繁出错”变为“大部分情况下可靠”，可真正用于日常生产工作。
2026年2月，名为OpenClaw（最初名为Warelay）的个人AI助手项目迅速走红，衍生出“Claw”这一通用概念（如NanoClaw、ZeroClaw），硅谷Mac Mini因作为“Claw的数字宠物缸”而脱销。
2026年2月，Gemini 3.1 Pro发布，在“鹈鹕骑自行车”测试中表现优异（带鱼篮）；随后Google Jeff Dean展示了包含多种动物动画的多模态生成能力，暗示AI实验室已关注此类基准。
过去一个月（2026年4月前后），Google发布Gemma 4系列，为美国公司最强开放权重模型；中国GLM发布GLM-5.1（1.5TB参数怪兽），可绘制合格鹈鹕骑自行车但动画有变形；Qwen3.6-35B-A3B（20.9GB本地模型）在笔记本上生成的鹈鹕图像竟优于Claude Opus 4.7。
作者本人假期期间“迷幻”般尝试了多种项目，包括在Pyodide/webAssembly/浏览器中运行的JavaScript实现（micro-javascript），但承认其做作且不实用。

亮点：编码代理在2025年11月跨过实用化门槛，从“需要大量修正”变为“日常可依赖”，标志着LLM在编程辅助领域进入成熟应用阶段；同时，本地可运行的开源模型（如Qwen3.6）表现突飞猛进，甚至在某些特定任务上超越前沿闭源模型，大幅降低了高质量AI能力的获取门槛。

资讯地址

https://simonwillison.net/2026/May/19/5-minute-llms/#atom-everything

4. ★ AI Is Technology, Not a Product

AI 应被视为底层技术而非独立产品，Apple 的策略是将 AI 融入现有产品体验中，而非打造一个单独的“杀手级 AI 设备”。

详细内容

Apple 高管 Ternus 表示，AI 是一个“巨大的转折点”，但公司从不单纯推出技术，而是专注于交付“令人惊叹的产品、功能和体验”，让用户无需关注底层实现。
文章驳斥了 Steven Levy 关于 AI agent 将在本十年末取代手机、实现无感叫车等场景的科幻式预测，认为这些设想缺乏实际产品支撑（如麦克风、屏幕、网络可靠性），并断言 2030 年叫车最常用的设备仍是手机。
作者将 AI 类比为无线网络：无线技术已渗透至 Apple 所有设备，但 Apple 从未推出过“杀手级无线网络产品”；AI 将同样渗透到每一款设备中，而非成为单独的产品类别。

亮点：文章的核心洞察在于强调 AI 应像无线网络一样作为基础能力渗透至所有产品，而非被包装成独立的“杀手级”产品，这从根本上反驳了当前行业对 AI 硬件热潮的过度期待。

资讯地址

https://daringfireball.net/2026/05/ai_is_technology_not_a_product

5. Notes on pretraining parallelisms and failed training runs.

预训练失败通常源于破坏因果性（如专家路由或Token丢弃导致训练与部署不一致）和引入偏差（如低精度数值误差累积），而随着模型规模扩大，新问题会不断涌现，并非仅有少数固定故障模式。

详细内容

破坏因果性的典型机制：专家选择路由（Expert Choice）在训练中强制各专家处理相同数量的Token，但后续Token的分配会影响当前Token的专家选择，打破了因果性；Token丢弃（Token Dropping）同样会导致早期Token因后期Token的匹配而被忽略。据称这是Llama 4和Gemini 2 Pro表现不佳的原因之一。
偏差的致命性与具体案例：偏差比方差更危险，因为方差可平均化，而偏差会系统性累积。原始GPT-4训练因FP16 all-reduce集体操作中的数值精度问题而严重变慢：当累加超过1024后，每个加1操作都会被向下舍入，最终导致计算结果与真实值偏差达10倍。
失败模式的不可预测性：不同于“仅需攻克5种老化疾病”的简化观点，预训练失败会随规模扩大不断出现新问题（如数值精度领域就有多种错误方式）。受访者认为这使AI短期内难以完全自动化内核编写，Nvidia优化Blackwell耗时已久便是佐证。

资讯地址

https://www.dwarkesh.com/p/notes-on-pretraining-parallelisms

6. Premium: What If…We’re In An AI Bubble? (Part 1)

[第一行：用一句话概括文章核心，作为文章的引言] 文章批判当前AI领域普遍存在的脱离现实的乐观预测和资本泡沫，认为大量基于未来模型能力的假设缺乏证据支撑，可能形成历史上最严重的资本错配之一。

详细内容

作者批评许多年轻创业者（如斯坦福辍学生Yash Kadadi）声称“GPT-7将吞噬所有软件”、“特斯拉Optimus机器人将替代所有体力劳动”，将此比喻为讨论哥斯拉威胁般荒谬，并指出特斯拉自身已否认Optimus原型具备实用能力。
媒体对AI研究的报道存在严重夸大，例如METR的“时间地平线”研究被广泛引用作为模型接近意识的证据，但作者指出该研究基于人类任务时间估算，且最常被讨论的“50%成功率”实际上意味着模型只有一半概率完成任务——如同《Anchorman》电影中的“Sex Panther”笑话。
揭示AI泡沫的财务风险：OpenAI与微软的协议要求其实现1900亿美元营收才能达到营收上限，而实际可能无法实现；OpenAI的崩溃将导致Oracle失去主要客户（占其70亿美元以上年收入）、微软和亚马逊遭受损失、Cerebras失去80%+收入、CoreWeave违反贷款条款，且大量英伟达Blackwell GPU实际滞留在仓库中，市场却仍在为未建成的数据中心而上涨。

亮点：文章最核心的启发是——当前AI市场狂热建立在一系列未经证实的虚构假设之上（如模型即将达到AGI、机器人可替代劳动、营收增幅无限），而投资规模与实际落地能力之间存在巨大鸿沟，一旦现实数据无法支撑预期，将引发多米诺骨牌式的系统性崩盘。

资讯地址

https://www.wheresyoured.at/premium-what-if-were-in-an-ai-bubble-part-1/

7. Checking the math behind OpenAI and Anthropic’s latest headlines

OpenAI在解决一个80年历史的埃尔多斯数学猜想上取得重大进展，但成果的通用性和商业意义需审慎看待；与此同时，Anthropic可能首次实现季度盈利，但主要得益于一次性的计算折扣。

详细内容

OpenAI使用一个尚未发布的推理模型（基于链式思维推理）系统性地探索问题空间，生成了一个反例，推翻了离散几何中一个长期被认为正确的猜想。专业数学家从模型冗长的推理日志中提取关键部分，将其改写为标准数学证明。
该模型的成功主要归因于其“超人级别的耐心”和对大量技术工具的熟悉，能够系统性地延伸现有方法，探索人类数学家可能因枯燥而放弃的路径。然而，内部模型极可能成本高昂，且OpenAI未披露尝试次数（仅有成功案例的分子，无失败的样本分母），因此成果的泛化能力未知。
从商业角度看，专业数学学术市场极其小众且利润微薄，OpenAI将顶级人才投入此领域，反而凸显其模型能力仍高度局限在适合LLM的数学与编程场景，而非更通用的商业应用。
Anthropic据华尔街日报报道，预计首次实现季度盈利（约5.59亿美元），但这一数字很大程度得益于SpaceX在其IPO文件中披露的一次性计算折扣，且折扣金额可能高于盈利本身，因此盈利的可持续性存疑。

亮点：文章明确指出，不应将AI在数学上的成就简单等同于AI“比人类更聪明”，更合理的类比是计算机辅助设计工具让建筑师更具创造力——AI的真正价值在于作为增强人类能力的协作工具，而非独立的“超级数学家”。

资讯地址

https://garymarcus.substack.com/p/checking-the-math-behind-openai-and

8. How I use LLMs as a staff engineer in 2026

随着代理技术显著进步，作者从2025年有限制地使用LLM辅助编码，转变为在2026年广泛依赖代理完成完整的代码更改、大部分Bug调查和测试工作，但在关键沟通和写作中仍保持人工主导。

详细内容

代理完成完整PR已成常态：2025年作者仅让LLM处理单个简单文件改动或获取反馈，而2026年每次变更都先让代理尝试解决，通常只需一次编辑就能推送PR。GitHub Copilot CLI和Copilot应用（每天数十次会话）成为主要工具，代理犯错后能自行恢复，但作者仍需快速评估（30秒内）并经常拒绝估计5–6次后才接受，或放弃并手动修改。
Bug调查依赖LLM提升诊断效率：2025年仅偶尔将bug丢给LLM碰运气；2026年每个bug都会交给代理，其正确诊断率约80%。作者仍会并行搜集上下文、建立心理模型、人工复现，并通过反馈缩小搜索空间（如“你的理论不成立因为X”），最终往往由代理给出答案，但人类经验仍是缩小问题范围的关键。
写作、测试与设置工作分工明确：PR描述多数由作者手写（避免LLM过度沟通、无法表达核心思想），仅在极简单时保留代理的单句描述；Slack消息、ADR、Issue和博客仍由人类撰写，仅将草稿给LLM获取反馈。测试方面，2026年主动让代理执行测试（如curl脚本）并阅读其日志，UI测试除外；单元测试和集成测试被视作“低成本”，作者常直接要求代理补充。

亮点：LLM代理已从需要人工逐行干预的辅助工具，进化为能独立完成大部分编码、测试和Bug诊断的协作伙伴，但人类专家在界定问题范围、判断关键沟通内容以及最终审查中的不可替代性反而更加凸显。

资讯地址

https://seangoedecke.com/how-i-use-llms-in-2026/

9. DeepSeek-V4-Flash means LLM steering is interesting again

DeepSeek V4 Flash 模型的本地部署能力为 LLM“引导”（steering）技术带来了新的可能性，使得普通工程师也能尝试通过直接操控模型内部激活来调整输出行为。

详细内容

本地强模型成为 steering 的实用基础：DeepSeek V4 Flash 的性能足以与低端前沿模型匹敌，且可完全在本地运行。antirez 的 DwarfStar 项目已将其作为核心模型，并将 steering 作为“一等公民”功能集成，尽管当前功能仍较初级（如简单的“冗长度”控制），但发布仅八天便引发关注。
Steering 原理：从激活差异中提取概念向量：一种简单方法是向模型输入同一组提示两次（一次正常、一次附加“简洁回答”），通过计算激活矩阵的差值得到“引导向量”，在推理时将该向量加入对应激活层即可影响输出。更高级的方法（如 Anthropic 的稀疏自编码器）可提取更深层的特征，但计算成本更高。
Steering 的吸引力与局限性：理论上 steering 可替代繁琐的提示工程或重新训练，直接调节模型行为（如“简洁/冗长”滑块）。但实际上，主流实验室更偏好直接训练模型，API 用户无法访问权重，且多数场景下提示即可达到类似效果。steering 的真正潜力在于控制无法通过提示调整的概念（如“智能”

资讯地址

https://seangoedecke.com/steering-vectors/

10. The famous o3 “GeoGuessr” prompt did not work

[第一行：用一句话概括文章核心，作为文章的引言] 一项基准测试表明，OpenAI o3模型在“GeoGuessr”地理定位任务中表现优异，但广为流传的“魔法提示词”并未带来实质提升，反而略逊于基础提示词。

详细内容

作者构建了包含200张公开图片的基准测试集（来自Wikimedia Commons、Geograph Britain and Ireland和iNaturalist），分别使用基础提示词（“仔细思考图片拍摄地点”）和Kelsey Piper发布的精心设计的“GeoGuessr提示词”对o3模型进行测试。
结果数据显示：基础提示词的中位误差为83.2公里，平均误差440.7公里；而“GeoGuessr提示词”的中位误差为102.3公里，平均误差481.9公里，且在各距离分位数上基础提示词均表现更优或持平。
作者指出，提示词迭代容易产生自我欺骗——模型会编造推理过程，并倾向于肯定用户的提示调整。唯一可靠的验证方式是构建基准测试。此外，o3的定位能力并未迁移到后续的GPT-5.4和GPT-5.5模型上（后两者中位误差超过150公里）。
作者仅花费约6小时和15美元完成了基准测试，质疑为何此前大量报道和用户均未进行类似验证，并认为AI领域发展过快、工具不足（当时缺乏强智能体辅助）是可能原因。

亮点：[总结文章最值得关注、最具启发性的一个核心亮点] 文章通过实证击破了“精心设计的提示词可解锁新能力”的常见迷思，揭示了缺乏基准测试时自我验证的陷阱——模型本身已具备出色能力，复杂的提示词可能只是增加了用户的“归因错觉”。

资讯地址

https://seangoedecke.com/the-o3-geoguessr-prompt-did-not-work/

11. Datasette Agent

Simon Willison 发布了 Datasette Agent 的首个版本，这是一个为 Datasette 打造的可扩展 AI 助手，将 LLM 与 Datasette 深度结合，支持对话式数据查询与图表生成。

详细内容

Datasette Agent 为用户提供对话式界面，可直接针对 Datasette 中存储的数据提问，并生成 SQL 查询返回结果；例如在演示中，询问“Simon 最近一次看到 pelican 是什么时候”，系统自动构建 SQL 查询并返回准确答案。
该工具采用插件化架构，目前已发布三个基础插件：datasette-agent-charts（基于 Observable Plot 生成图表）、datasette-agent-openai-imagegen（通过 ChatGPT Images 2.0 生成图像）、datasette-agent-sprites（在 Fly Sprites 沙箱中执行代码），用户可利用 Claude Code 或 OpenAI Codex 快速编写新插件。
支持运行本地模型，例如通过 uv 一行命令配置 Gemma-4-26b-A4B 等开源权重模型，这些模型在 SQLite 查询生成和工具调用方面已具备足够可靠性；演示实例运行在 Gemini 3.1 Flash-Lite 上，成本低且速度快。

亮点：Datasette Agent 通过统一的插件机制，将 LLM 的对话能力、数据查询、图表生成和代码执行集成到 Datasette 生态中，同时兼容本地开源模型，为构建个人 AI 助手（如作者设想的“Claw”项目）提供了可扩展的基础框架。

资讯地址

https://simonwillison.net/2026/May/21/datasette-agent/#atom-everything

12. Could generative AI turn out to be the tech industry’s Vietnam? And could public backlash lead AI to a better place?

生成式AI可能重蹈科技业“越战”覆辙：巨额投入未见回报，公众反弹正促使政策转向，或为AI发展带来更健康的监管环境。

详细内容

近期多场大学演讲中，包括谷歌前CEO埃里克·施密特在内的嘉宾因提及AI而遭到观众嘘声，表明公众对AI的反弹情绪正在迅速升温。投资人Jason Calacanis将此现象类比为越战，作者认为这一类比可能比表面更深——越战中美国投入巨资却一无所获，背后是傲慢驱动；如今AI行业同样以空前速度烧钱（可能达数万亿美元），仍面临幻觉、不可靠性和对齐问题，投资回报率极低，可能成为另一场由傲慢驱动的重大错误。
在2026年“黑天鹅”预测中，作者曾预言特朗普将在2026年底前与2025年激进支持AI产业的政策拉开距离。如今这一预测可能提前成真：受到公众反对情绪（如对Mythos等风险的担忧）影响，特朗普正积极考虑对AI实施“飞行前检查”式监管，类似于作者三年前建议的“像FDA一样评估和监管AI新应用，基于严格的安全证据”。这表明特朗普AI政策已开始重大转向。
如果公众反弹力度足够大，特朗普可能进一步远离去年反监管的立场。作者在其著作《驯服硅谷》中主张：只要民众团结，我们实际上有望将AI引导至更健康的发展轨道。

亮点：公众强烈反弹正在倒逼政策制定者（包括曾经激进支持AI的特朗普）转向监管，这为未来AI走向更安全、更负责任的发展模式提供了意想不到的契机。

资讯地址

https://garymarcus.substack.com/p/could-generative-ai-could-turn-out

13. Gemini 3.5 Flash: more expensive, but Google plan to use it for everything

Google 正式发布 Gemini 3.5 Flash，价格大幅上涨（为前代 Flash 模型的 3 至 6 倍），但仍计划将其广泛部署在自有消费级产品中，显示出三大 AI 实验室正试探 API 客户的价格承受力。

详细内容

模型发布与覆盖：Gemini 3.5 Flash 跳过预览版直接进入通用可用阶段，即日起向全球数十亿用户开放，覆盖 Gemini App、Google 搜索 AI 模式、Google Agent 开发平台 Antigravity、AI Studio、Android Studio 以及 Gemini Enterprise 等。
核心规格与定价：模型 ID 为 gemini-3.5-flash，知识截止于 2025 年 1 月；支持 1,048,576 输入 token 和 65,536 输出 token；价格调整为每百万输入 1.50 美元、每百万输出 9 美元，是 Gemini 3 Flash Preview 的 3 倍、3.1 Flash-Lite 的 6 倍，已接近 Gemini 3.1 Pro 的水平。
性能对比与成本压力：在 Artificial Analysis 的专有基准测试中，Gemini 3.5 Flash（high 模式）运行成本为 1,551.60 美元，显著高于 Gemini 3.1 Pro Preview（892.28 美元）；而 Claude Opus 4.7 和 GPT-5.5 的同类测试成本更高（最高达 5,117 美元），反映出整体推理成本上升趋势。
新特性与局限：新增了仍在 beta 阶段的 Interactions API，类似 OpenAI 推出的服务端历史管理模式；但未提供计算机使用（computer use）功能。

亮点：Gemini 3.5 Flash 在价格大幅提升（API 成本已接近更高级的 Pro 模型）的情况下，仍被 Google 大规模部署于免费消费级产品，表明各大 AI 厂商正同步测试市场对高价推理模型的接受度，行业定价策略可能迎来整体上移。

资讯地址

https://simonwillison.net/2026/May/19/gemini-35-flash/#atom-everything

14. Prompts are technical debt too

大量定制化的AI提示词正在成为比代码更危险的技术债务，因为它们会随着模型升级而无声贬值，且难以察觉。

详细内容

文章指出，虽然“所有代码都是技术债务”已成为共识，但如今工程师们大量编写项目专属提示词文件（如AGENTS.md、CLAUDE.md、skills等），这些提示词的细微调整能显著提升模型表现，但本质上同样是增加系统复杂性和维护负担。
提示词调整具有强烈的模型特异性：同一个提示词在GPT-5.4上效果出色，但换到GPT-5.5可能就失效甚至有害。由于模型能力难以精确量化，用户往往误以为是新模型“变差了”，而非提示词过时，这种衰退是无声的。
相比代码技术债务通常导致明显错误或速度变慢，提示词债务更危险——代码不动时相对稳定，而每次模型升级都可能让精心调校的提示词彻底失效。单纯拒绝升级模型在实践中并不可行，因为新模型的基础能力提升会迅速拉开差距。

亮点：文章提出了一种务实策略——大多数用户应直接使用第三方维护的AI编码工具（如Claude Code、Codex、Cursor等），并尽量保持默认配置，从而“搭便车”利用专业团队随模型升级持续优化的提示词，避免自己陷入定制提示词带来的隐性技术债务。

资讯地址

https://seangoedecke.com/prompts-are-technical-debt-too/

15. Eric Jang – Building AlphaGo from scratch

在一次深度访谈中，前1X Technologies AI副总裁Eric Jang详细解析了如何利用现代AI工具从头构建AlphaGo，并以此为窗口探讨了强化学习在大型语言模型中的核心挑战与未来AI研究自动化的边界。

详细内容

AlphaGo是理解智能原语的最佳范例：Eric Jang指出，AlphaGo完美体现了智能的三大原语——搜索、从经验中学习和自我对弈。通过回顾2017年的技术，我们能更清晰地洞察未来通用AI的学习机制，尤其是如何将“搜索”与“深度学习”结合以解决复杂决策问题。
MCTS解决了LLM强化学习中的信用分配困境：对比发现，朴素策略梯度RL需要从超过10万个token的长轨迹中判断哪些动作导致了正确结果，而AlphaGo的蒙特卡洛树搜索（MCTS）在每一步都能提供严格更优的动作目标，从而规避了信用分配难题。这一机制更接近人类的学习方式。
现代工具大幅降低了复现门槛：得益于LLM代码生成等工具，过去需要整个DeepMind研究团队和数百万美元计算成本的AlphaGo级项目，如今仅需数千美元租用计算资源即可完成。开源项目KataGo（2020年）更是实现了40倍的计算效率提升，成为当前Go AI的主流选择。
AI研究的自动化现状：当前LLM已能高效执行实验实现、超参数优化等任务，但在选择正确的研究方向、识别并走出研究死胡同方面仍显不足。这一讨论为“智能爆炸”何时到来以及其内部表现提供了现实参照。

亮点：AlphaGo的MCTS通过每一步提供明确的价值信号，完美绕过了RL中的信用分配瓶颈，这一机制为改进LLM的强化学习训练提供了关键启示——正如人类学习一样，清晰的局部反馈远比在混沌轨迹中盲目归因更有效。

资讯地址

https://www.dwarkesh.com/p/eric-jang

16. How do I use Win32 structures from the Windows Runtime?

Windows Runtime 由于语言无关性设计无法直接使用经典的 Win32 结构体，但可以通过声明布局相同的影子结构体来间接实现。

详细内容

Windows Runtime 追求语言无关性，其 ABI 一致且 API 通过元数据描述，允许各语言将 WinRT 概念映射到自身类型（如 C++ 的 std::chrono::time_point 对应 WinRT 的 DateTime）。
语言无关性的代价是限制表达能力，例如 WinRT 不支持原始指针，因此传统 C/C++ 头文件中定义的 Win32 结构体不属于 WinRT 范畴，无法直接使用。
解决方法是在 WinRT 中声明与目标 Win32 结构体内存布局完全相同的“影子结构体”，例如自定义 struct Win32Point { Int32 X; Int32 Y; } 来模拟 Win32 的 POINT。
对于部分 Win32 结构体（如 PROPERTYKEY），WinRT 有其惯用表示形式（字符串形式），可通过 PSPropertyKeyFromString 和 PSStringFromPropertyKey 进行转换。

亮点：通过声明布局一致的影子结构体，巧妙绕过了 WinRT 对原始指针和传统结构体的限制，为在 WinRT 环境中复用 Win32 数据提供了实用且低成本的兼容方案。

资讯地址

https://devblogs.microsoft.com/oldnewthing/20260521-00/?p=112345

17. WSJ: ‘Google Unveils New Gemini AI Agent for Personal Tasks’

Google 在 Google I/O 大会上发布名为 Gemini Spark 的个人 AI 代理，旨在通过跨产品协作和云端执行，提升其在代理型 AI 时代的竞争力。

详细内容

Gemini Spark 是一种能够导航用户数字生活并代表用户执行操作的个人代理，可跨多个 Google 产品工作，并运行于 Google 的云基础设施上。
Google 已在小范围内测试该代理，计划于下周向订阅 AI Ultra 新套餐（月费 100 美元）的用户开放。
分析师指出，此举体现 Google 全面将 AI 融入所有产品的决心，但同时也暴露出公司业务分散、缺乏聚焦的长期批评。

亮点：Gemini Spark 不仅是对话式 AI，更是能够主动代表用户跨应用执行任务的“代理”，标志着 Google 从工具型 AI 向行动型 AI 的关键转型。

资讯地址

https://www.wsj.com/tech/ai/google-unveils-new-gemini-ai-agent-for-personal-tasks-b8093197?st=BFmPev

18. Jury Rejects Elon Musk’s Claim Against Sam Altman in Unanimous Verdict

美国联邦陪审团一致裁定，埃隆·马斯克因超过三年诉讼时效，其针对 OpenAI 及萨姆·奥特曼的诉讼请求被驳回。

详细内容

由九人组成的陪审团认定，马斯克于 2024 年夏季提起诉讼时，已超过三年法定诉讼时效；证据显示他早在 2021 年便已知晓其诉状中提及的 OpenAI 相关行为。
该诉讼针对的是估值高达 7300 亿美元的人工智能初创公司 OpenAI 及其首席执行官萨姆·奥特曼。
审理此案的法官伊冯·冈萨雷斯·罗杰斯在陪审团指示中引用了富有诗意的表述，强调陪审团作为“没有野心的政府机构”，仅就案件本身作出裁决，随后便消散，不承受后续批评。

亮点：该案的核心法律障碍并非事实争议，而是诉讼时效的程序性壁垒，同时法官对陪审团本质的阐述揭示了美国司法体系中临时性、人性化裁决机制的精妙之处。

资讯地址

https://www.nytimes.com/live/2026/05/18/technology/openai-trial-verdict-altman-musk?unlocked_article_code=1.jVA.Cc2V.IwYuu2r4SJfQ

19. Greg Brockman Officially Takes Control of Products at OpenAI, a Very Stable Well-Run Company

Greg Brockman正式接手OpenAI的产品战略领导权，标志着公司在持续重组中进一步统一产品线。

详细内容

OpenAI在周五内部宣布重组，旨在统一产品体系，联合创始人兼总裁Greg Brockman将正式负责产品策略，同时继续领导AI基础设施工作。
Brockman此前在AGI部署CEO Fidji Simo休医疗假期间临时接管产品事务，如今这一任命转为正式；据公司透露，Simo仍在休假，且她与Brockman共同参与了此次组织调整。
报道指出，Simo的职位“AGI部署CEO”在通用人工智能尚未实现的情况下颇为尴尬，作者预测她可能不会重返岗位，尽管OpenAI表示期待其回归。

亮点：Brockman的正式任命反映出OpenAI正将产品化作为核心战略方向，而Simo长期休假与AGI迟迟未至形成鲜明对比，凸显了公司前沿愿景与现实产品落地之间的张力。

资讯地址

https://www.wired.com/story/openai-reorg-greg-brockman-product/

20. Human Bottlenecks

当今AI模型能力日益强大，但人们普遍感到未能充分利用它们，这并非技术不足，而是受到“人类瓶颈”的制约——缺乏严肃的使用场景和内在动力。

详细内容

“严肃使用场景”缺失：许多人构想用AI写闪卡、做导师或当执行助理，但他们本身并不使用闪卡、没有真正需要学习的课题、或缺乏明确需要完成的任务。AI在没有“针”（即具体、可实现的物质需求）的情况下无法移动“针”，导致这些想法只是模糊的自我提升愿望。
内在限制因素：人类自身的动机、习惯和认知瓶颈是更根本的障碍。即使有强大的AI辅助，如果一个人没有持续、严肃的目标（如职业要求或学术研究），AI也无法推动改变。例如，多数人并非自学者，学习任何东西都面临机会成本，因此往往选择不作为。
工具型思维的自我循环：笔记与“第二大脑”类应用常陷入“为工具而工具”的困境。用户积累大量未读PDF和未完成的笔记，AI协助整理、总结、关联内容，最终只是产生更多无人问津的项目，缺乏实际输出或可交付的成果。这种“数字花园”往往变成展示Obsidian图表（Twitter截图）的自我指涉活动。

亮点：文章指出，AI赋能人类的真正瓶颈不在于技术能力，而在于人类是否具备“真实的、可实现的具体目标”与“内在持续行动的驱动力”；缺乏这些，任何外部工具（包括AI）都无法产生实质性改变。

资讯地址

https://borretti.me/article/human-bottlenecks

21. What will better AI mean?

前沿AI实验室并无秘密技巧，AI发展已进入回报递减阶段，未来关键在于效率与品味，而非无限制的规模扩张。

详细内容

AI没有护城河：美国前沿实验室（如Anthropic）的训练方法公开且可复现，没有隐藏技巧；所谓“超级智能”在人类难以检测的领域并无实际意义，真正的进步来自修复漏洞和规模扩展。
指数成本与线性回报：AI（以及任何形式的搜索）具有投入指数级成本仅获得线性回报的特性；理论上AI能解决极难问题，但代价高昂，未来一段时间将处于这种“高成本低回报”的阶段。
互联网数据已耗尽：互联网提供了约20万亿优质token，按Chinchilla最优模型仅需1万亿权重；人类全部知识压缩后仅需500GB（维基百科仅24GB），数据增长已触顶。
规模扩展效果趋弱：作者认为GPT-5.5已在绝大多数问题上难以被人类难住，进一步规模扩展带来的收益将非常有限；技术发展遵循S曲线，AI已历经多次曲线拐点，当前曲线末端在望。
未来方向：效率与品味。大多数问题不是优化问题，真正的难题是“优化什么”；对于可验证的领域（如数值优化），AI仍能展现超人类能力，但艺术、音乐等“品味”领域才是人类能大量参与竞争的新舞台。

亮点：文章指出AI发展的下一阶段不再是单纯追求规模带来的“更强”，而是转向效率提升和“品味”竞争——即让更多人使用工具，在非优化类问题（如创意、审美）中发挥人类独特判断力。

资讯地址

https://geohot.github.io//blog/jekyll/update/2026/05/20/what-will-better-mean.html

22. Don’t call yourself a Software Engineer, and other Career Advice

在当前AI重塑职场的背景下，软件工程师不应执着于头衔的“AI化”包装，而应回归职业本质：提升解决问题、沟通协作和建立人脉的能力。

详细内容

作者观察到LinkedIn上大量从业者将头衔改为“AI工程师”“AI赋能者”等，但许多人的实际工作内容并未发生根本变化，这种头衔替换更像是跟风，而非能力提升。
回顾Patrick Mckenzie的经典建议，其核心并非从“程序员”改称“软件工程师”，而是强调工作成果比技术形式更重要，并鼓励参加行业会议、写博客、帮助他人、建立职业关系——这些建议至今仍有效。
面对AI时代，作者讽刺性地列出头衔替换方案（如后端工程师→AI平台工程师、维护cron任务→自主智能体专家），但指出真正价值在于持续学习编程基础、积累经验、主动社交和沟通，这些才是获得面试机会和职业成长的关键。

亮点文章犀利指出：在AI浪潮中盲目更改头衔是语义上的自我欺骗，而Patrick十年前倡导的“注重成果、深耕人脉、强化沟通”等职业建议，至今仍是应对技术变革最扎实的成长路径。

资讯地址

https://idiallo.com/blog/you-are-an-ai-enabled-engineer-now?src=feed

23. Advantages and disadvantages of Windows 3.0

[第一行：用一句话概括文章核心，作为文章的引言] Windows 3.0（1990年5月22日发布）被普遍认为是首个可使用的微软Windows版本，文章探讨其优缺点，但原文内容被截断，未提供具体要点。

详细内容

Windows 3.0于1990年5月22日发布，被评价为首个“可用”的Windows版本。
文章明确提及该版本是首个在市场上取得显著成功的Windows系统，但优势与劣势的具体细节因内容截断而缺失。
原文仅标注了来源出处（The Silicon Underground），未展开任何技术参数或用户反馈。

亮点：原文标题的焦点在于Windows 3.0的历史定位，而非具体的技术对比或AI相关内容。

资讯地址

https://dfarq.homeip.net/advantages-disadvantages-windows-3-0/

24. Quoting SpaceX S-1

SpaceX在其S-1文件中披露，已与Anthropic签订每月12.5亿美元、持续至2029年的云服务协议，为其提供超级计算集群COLOSSUS和COLOSSUS II的计算能力，同时这些资源也用于训练自家AI模型Grok 5。

详细内容

SpaceX利用其计算资源支持自有AI应用（如正在COLOSSUS II上训练的Grok 5），并向第三方客户提供部分计算容量。
2026年5月，SpaceX与Anthropic签署云服务协议，提供COLOSSUS及COLOSSUS II的计算能力，协议期至2029年5月，总金额高达每月12.5亿美元，2026年5月和6月以折扣费率起步。
该协议可由任意一方提前90天通知终止，显示出灵活的合同结构，同时反映了AI计算资源市场的巨大需求与高价。

亮点：SpaceX的超级计算集群不仅用于自家AI训练，更以每月12.5亿美元的惊人价格向Anthropic出租，凸显了顶级算力在AI军备竞赛中的稀缺性和商业价值。

资讯地址

https://simonwillison.net/2026/May/20/spacex-s1/#atom-everything

25. Andrej Karpathy Joined Anthropic

AI研究领域的明星人物安德烈·卡帕西（Andrej Karpathy）宣布加入人工智能公司Anthropic，回归研发一线。

详细内容

卡帕西在社交媒体上发布个人动态，称已加入Anthropic，认为未来几年大语言模型（LLM）的前沿发展将尤为关键，对重返研发岗位感到兴奋。
他同时表示对教育的热情未减，计划在未来适时重启相关的教育工作。
卡帕西拥有显赫的职业履历：2015年联合创立OpenAI，2017至2022年担任特斯拉AI总监（直接向埃隆·马斯克汇报），2023年重返OpenAI，2024年又离职创办AI教育公司Eureka Labs，并于去年二月提出“氛围编码”（vibe coding）这一术语。

亮点：卡帕西在短暂投身AI教育创业后，迅速回归顶尖AI实验室的核心研发岗位，反映出前沿LLM领域对顶级研究人才持续的吸引力与紧迫感。

资讯地址

https://x.com/karpathy/status/2056753169888334312

26. The illusion of Generative AI, the insanity of massive bets on hyperscaling, and the case for world models and neurosymbolic AI

（摘要生成失败，请查看原文）

资讯地址

https://garymarcus.substack.com/p/the-illusion-of-generative-ai-the

27. Existing Stakeholders Have a Say in the Future

[第一行：一句话概括] 本文反驳了“AI智能体将取代现有出行平台”的乐观预言，强调Uber、Lyft等现有利益相关者有能力通过控制接入条件来延缓或重塑技术变革。

详细内容

预言回顾：科技记者Steven Levy认为，到本十年末，用户将不再手动打开Uber或Lyft叫车，而是通过始终在线的AI智能体自动完成出行——甚至智能体会提前预判需求，免去请求步骤，“让智能体去做”将取代“有App可以办到”。
核心反驳：作者指出，Levy的论证忽视了Uber和Lyft等既得利益者的立场。这些公司已深度嵌入市场，它们完全有能力决定在哪些平台上允许被调用、以何种接入协议开放服务，而非被动地将未来交到OpenAI、Anthropic或已与它们直接竞争的Waymo手中。
历史佐证：作者以沃尔玛至今拒绝支持Apple Pay为例，说明技术浪潮中现有企业常常会阻挠新标准的普及。同理，Uber和Lyft没有理由主动将自己的核心业务拱手让给AI代理平台——尤其是当这些平台本身可能就是未来的竞争对手时。

亮点：文章点出了一个常被技术狂热者忽略的现实——现有利益相关者不会被动等待被颠覆，它们会主动通过控制接入权、拒绝合作等方式减缓新技术的渗透，从而塑造变革的节奏与方向。

资讯地址

https://daringfireball.net/2026/05/ai_is_technology_not_a_product

28. ArXiv to Ban Researchers for a Year if They Submit AI Slop

ArXiv 宣布将对提交包含未经验证的 AI 生成内容（“AI slop”）的论文作者实施为期一年的禁发处罚，并规定解禁后必须先通过正规同行评审才能再次提交。

详细内容

处罚标准：若论文中存在由生成式 AI 工具产生的不当语言、剽窃、偏见、事实错误、引用错误或误导性内容，且可确证作者未对 LLM 输出结果进行核实，ArXiv 将视为作者责任，并给予一次性“一票否决”处罚——即使仅首次违规也将被禁一年。
后续限制：禁期结束后，作者再次向 ArXiv 提交论文时，必须事先获得知名同行评审期刊的接收证明，否则不予受理。
申诉机制：该处罚决定并非终局，作者有权提出申诉，ArXiv 承诺会对个案进行重新审查。

亮点：ArXiv 对“AI slop”采取零容忍的“一次违规即封禁”立场，明确划清了利用 AI 辅助研究与放任 AI 生成低质量内容之间的界限，彰显了学术预印本平台对科研诚信与内容质量的坚决捍卫。

资讯地址

https://www.404media.co/new-arxiv-rules-ai-generated-papers-ban/

29. The AI trial of the century ends with a whimper

一场备受关注的AI诉讼（马斯克诉OpenAI）以程序性理由草草收场，陪审团并未就OpenAI是否背离其原始使命做出实质裁决。

详细内容

这场被称为“世纪AI审判”的案件最终以程序性问题落幕，陪审团认定埃隆·马斯克的起诉时间过晚，因此未对案件实体内容进行审议。
陪审团没有就OpenAI的行为是否合法、是否违背其最初的非营利使命做出判断，这些核心争议被完全搁置。
原文作者指出，外界将永远无法知晓如果OpenAI被强制要求严格遵守其原始使命（即原封不动地复制并遵守该使命条款），世界将会怎样。

亮点：程序性驳回掩盖了实质性问题——OpenAI是否背离初衷这一关键争议未能得到司法澄清，留下了巨大的悬念与遗憾。

资讯地址

https://garymarcus.substack.com/p/the-ai-trial-of-the-century-ends

AI服务

30. Alternatives for the EDIT tool of LLM agents

该文章探讨了为提升LLM Agent编辑工具的令牌效率而设计的标签校验替代方案，并分析了其与全局文件CRC32校验之间的权衡。

详细内容

作者指出，当前流行的EDIT工具采用CAS（Check-And-Set）模式，要求LLM在编辑时逐字输出旧文本（如EDIT old="foo" new="bar"），这在本地推理中因令牌稀缺而代价高昂，且易因特殊字符或空格导致编辑失败。
为解决该问题，作者设计了基于行标签的编辑工具：通过READ/SEARCH返回每行的4字符标签（约2.5个令牌，为行内容的校验和），LLM编辑时只需指定行号、标签和新内容，无需重写旧文本，显著节省令牌，尤其适用于批量删除或修改大量文本的场景。
作为替代，文章提出了全局文件CRC32方案：只返回整个文件的CRC校验值，编辑时仅指定行号范围，令牌开销更低，但缺点是在文件任何无关部分发生改动时都会导致编辑失败，灵活性较差。作者建议通过实际使用（如ds4-agent多会话测试）来决定哪种模式更优，并考虑加入命令行切换选项。

亮点：通过引入行级校验标签取代逐字输出旧文本，在保持CAS语义（避免并发编辑冲突）的同时大幅降低令牌消耗，为本地大模型推理场景下的高效Agent交互提供了一种实用且可验证的优化思路。

资讯地址

http://antirez.com/news/166

往期推荐

(完)

一站式AI资源导航中枢，聚合工具探索、知识精研与趋势洞察，助您全方位驾驭人工智能浪潮

popular posts

结构化提示词系统论述： 构建高性能 Prompt 之路