里记录每周值得分享的AI科技内容,周末发布。

本杂志开源(GitHub: aitobox/newsweekly),欢迎提交 issue,投稿或推荐你的项目。

 

AI资讯

1. 2025 Google I/O开发者大会

万众期待的Google I/O开发者大会,终于在5月21日凌晨1点正式开始了。

详细内容

大会包括Google在AI、视觉生成、搜索、Agent系统及其他领域的最新发布和技术进展。分为六大部分,共列举了23项重点内容,涵盖了Google AI Ultra会员计划、Gemini系列模型、Veo3、Imagen 4、AI搜索模式、Agent系统及硬件设备等,展现了Google在人工智能和技术创新方面的全面发力。

一、战略级产品:Google AI Ultra 会员

定价:249.99 美元/月(前三个月半价 124.99 美元) 覆盖服务:Gemini 2.5 Pro Deep Think、Veo3、Project Mariner、NotebookLM、YouTube 会员等 意义:整合 Google 最新 AI 技术,标志其生态协同战略的全面落地

二、AI 模型:Gemini 系列全面进化
  • Gemini 2.5 Pro 语言/推理/代码能力登顶 LMArena 榜单,WebDev 编码测试分数提升 142 点 彩蛋:自主通关《宝可梦:蓝》游戏,展示复杂任务处理能力
  • Gemini 2.5 Flash 速度优化版,6 月正式上线,支持 AI Studio 预览
  • Deep Think 模式 通过延长推理时间提升数学/编程任务质量(类似 OpenAI 的 o1 pro)
  • Gemini Diffusion 实验性扩散模型,生成速度比前代快 5 倍,代码质量持平

官方让Gemini 2.5 Pro自己打通了《宝可梦:蓝》,八枚徽章收齐,四大天王+冠军全通。

 

三、Gemini 产品:多模态交互升级
  • Gemini Live 整合 Project Astra,支持摄像头实时问答(已上线 Android/iOS) 示例:识别街景物体并纠正用户错误认知
  • Personal Context 打通 Gmail/Drive 数据,生成个性化服务(如考试复习题)
  • Agent Mode 代理模式自动执行复杂任务(如房源搜索、预约看房),实验阶段待开放

四、视觉生成:对标 Sora 的突破
  • Flow 电影工具 整合 Veo/Imagen/Gemini,支持视频生成+剪辑(需使用官方素材) 限制:仅限美国区域,需魔法访问
  • Veo3 原生音频生成:同步音效/对话(如机器人战斗、篮球进球欢呼) 成本:单条视频消耗 150 点数(Ultra 会员月供 12500 点)
  • Imagen 4 文字嵌入优化:支持复杂排版(如恐龙骨字母海报),已上线 Whisk 平台

AIToBox第一时间测试Veo3的生成工具,配合好的分镜,个人制作精良的电影不是梦了,下面是AIToBox用Veo3一段仿照经典的科幻镜头《太空漫游2001》生成的短片:

同样的,分镜描述也是由Gemini 2.5 Pro生成的:

镜头号 场景描述 (视觉) 声音 时长 (大约)
1 外景. 史前平原 – 白天 <br> 特写镜头,一只猩猩(早期人类)的手试探性地从一堆动物骸骨中捡起一根大骨头。猩猩带着一丝顿悟的神情看着骨头。 低沉的猩猩喉音,风声。 2 秒
2 外景. 史前平原 – 白天 <br> 中景镜头。这只猩猩站了起来,用尽全力将骨头砸向地上的动物骸骨。背景中的其他猩猩或退缩,或带着恐惧和好奇的神情注视着。 骨头撞击的清脆断裂声,猩猩的尖叫声。 3 秒
3 外景. 史前平原 – 白天 <br> 慢动作。低角度拍摄。猩猩得意洋洋地将骨头高高抛向明亮的天空。骨头在空中翻滚。 激昂、胜利的管弦乐渐强 (灵感来自《查拉图斯特拉如是说》)。 2 秒
4 外景. 太空 – (与上一镜)连续 <br> 匹配剪辑。旋转的骨头无缝衔接过渡为一个光滑的白色宇宙飞船,在繁星点点的宇宙和远处的地球/月球背景下优雅地翻滚。 管弦乐推向宏伟的高潮,然后逐渐减弱为轻柔的嗡鸣声。 3 秒

 

五、搜索革命:AI Mode 重构体验

功能亮点:

  • 端到端对话式搜索,支持长复杂提问
  • 个性化推荐(结合 Gmail/搜索历史)
  • 深度研究:自动生成带引用报告
  • 虚拟试衣:上传照片预览穿搭效果
  • 数据:AI 概览功能月活超 15 亿,搜索量增长两位数百分比

六、Agent 系统:自动化新范式
  • Project Mariner 浏览器自动化 Agent,支持多任务并行 & 示范学习(RPA 式操作)
  • 开发者 API 夏季开放
  • Jules AI 编程助手,支持 GitHub 代码管理(每日 5 次免费额度)

还引入了一个非常酷炫的“示范并重复 (Teach and Repeat)”功能,就是你示范一次,它便学会流程,以后遇到类似任务就能直接上手。

资讯地址

https://io.google/2025/explore/

2. Anthropic发布Claude Opus 4 与 Claude Sonnet 4

5月22日,Anthropic正式发布新一代 Claude 系列模型:[Claude Opus 4] 与 [Claude Sonnet 4]。这两款模型旨在为编程、高级推理及 AI 智能体领域树立全新标杆。

详细内容

  • Claude 4 Opus:定位最强、最智能的模型,专为复杂推理、顶级编程和 AI Agent 工作流打造。
  • Claude 4 Sonnet:性能卓越,兼具高推理能力和高效率,是 Claude 3.7 Sonnet 的显著升级版。

编程能力登顶全球:Claude 4 Opus 在 SWE-bench 上以 72.5% 的成绩傲视群雄,Terminal-bench 得分 43.2%,登顶「世界最佳编程模型」。Claude 4 Sonnet 在 SWE-bench 上也取得了 72.7% 的 SOTA 成绩。

AI Agent 能力再突破:扩展思考与工具使用:模型能在「扩展思考」模式下调用网页搜索等工具,实现推理与工具的交替使用,大幅提升响应质量。并行工具执行:可同时调用多个工具,效率更高。指令遵循更精准:对复杂指令的理解和执行能力显著增强。记忆力大幅提升:通过开发者授予的本地文件访问权限,模型能创建和维护「记忆文件」,提取并保存关键信息,实现跨会话的连续性和隐性知识积累。

资讯地址

https://www.anthropic.com/news/claude-4

AI文章

 

 

1.Google AI 提示词最佳实践宝典

 

Google为如何撰写提示词编写了一份详细的指导,这份指导图文并茂,非常适合初学者学习:

文章地址:

往期推荐

(完)

Leave A Comment