
文 | 字母 AI
距离谷歌的 Gemini 3.5 Flash 发布照旧一周多了。
皮查伊在谷歌发布会上口口声声地暗意,Gemini 3.5 Flash 性能比 3.1 Pro 还强,说它是 Agent 时期的底座。
可遵守呢?网上对 Gemini 3.5 Flash 的评价,除了速率快这惟一的优点外,全是污点。输出的内容缺欠多、啰嗦、干活 token 破钞量爆炸 ……
谷歌 Antigravity 负责东谈主瓦伦 · 莫汉(Varun Mohan)在 5 月 25 日发帖称,谷歌已增设 Gemini 3.5 Flash ( Low ) 模子用于优化资源破钞。
瓦伦暗意,左证谷歌的里面测试数据,在处理浅薄任务时,Gemini 3.5 Flash ( Low ) 比较 Gemini 3.5 Flash ( Medium ) 可以减少约 45% 的 token 生成量。在软件工程(SWE)任务上的阐扬,Gemini 3.5 Flash ( Low ) 盛大优于上一代旗舰模子 Gemini 3 Flash ( High ) 。
关系词网友们并不买账,当今,瓦伦的指摘区照旧被网友们的冷嘲热讽绝对攻占。
热评第一条是"你们的家具测试过吗?看起来你们是拿咱们在作念测试啊!"
第二条是"能否也处治一下图像模子的生成数目驱散问题?你们的智力需要对标 Codex。我使用 Codex 可以生成 1000 张图像,但在谷歌的高档套餐下,我只可使用 Antigravity 生成 24 张。"

Gemini 3.0 Pro 出来的时候,统共东谈主都在为谷歌饱读掌,OpenAI 以致因此拉响红色警报,以慎重被谷歌超越。
关系词到了 3.5 Flash,谷歌成了怯夫,眼瞅着就要步入 Meta 的后尘。
那咱们不禁要问,谷歌,你这是咋了?
01 Gemini 3.5 的阐扬莫得达到预期
网上对 Gemini 3.5 Flash 的评价相配一致,很快,关联词不够好。
皮查伊在发布会上反复强调模子多低廉,关系词现实中情况迥然相异。
按照官方订价,Gemini 3.5 Flash 每百万输入 token 收费 1.5 好意思元,每百万输出 token 收费 9 好意思元,如实比 Claude Opus 4.7 的 5 好意思元和 25 好意思元低廉。
但这仅仅价钱表,信得过决定资本的,是完成一个任务到底要破钞若干 token。
Artificial Analysis 在完好意思评估套件中测试发现,Gemini 3.5 Flash 完周详部任务的总资本是 1552 好意思元,而 Gemini 3 Flash 只需要 282 好意思元,前者是后者的 5.5 倍。
哪怕是和 Gemini 3.1 Pro 比较,Flash 的资本也进步 75%,大要是 870 好意思元。更疼痛的是,Gemini 3.5 Flash 完成任务的用度,比 GPT-5.5 medium 还贵。
原因在于 turn count,也便是完成任务需要的轮次。
在 Agent 评估中,Flash 模子平均每个任务需要 49 轮对话。每一轮对话,它都会把完好意思的对话历史输入给模子,token 资本因此暴增。
而这样的任务,GPT-5.5 或者 Opus 4.7,差未几只用 20 轮就能完成。
是以谷歌说的"资本不到一半",指的是单元 token 价钱。但对用户来说,Gemini 3.5 Flash 少量都未低廉。
除了轮次多了,Gemini 3.5 Flash 的输出相配啰嗦。
比如以前你问 Gemini 3.1 Pro 一个本领问题,模子会平直给出代码和简单解释。
换成 3.5 Flash 之后,相同的问题,模子会先解释配景,再列举三种可能的决策,然后逐个分析优污点,临了才给出代码。
看起来很全面,试验上大部老实容都是谣言。更要命的是,这些谣言都算 token,都要收费。
复杂任务的 token 破钞更是爆炸。
有用户反应,让 Flash 实行一个多门径的代码重构任务,模子反复在不同文献之间跳转,每次跳转都要重新加载落魄文,最终破钞的 token 是预期的三倍以上。
还有用户暗意,仅仅输入了一个复杂的 prompt,就直斗争发了 5 小时使用驱散。
谷歌在 I/O 2026 之后偷偷修改了 AI Pro 订阅的额度法例,从固定音书数,改成了基于筹算资源的配额(compute-based quota)。
便是说你一个任务,若是让模子念念考得多,那即使它给你回复的内容不变,花的钱也比以前更多。
那么问题来了,我怎样知谈一个任务会让模子破钞若干算力?何况,我也推算不出来我还剩若干算力。
可能我仅仅跟它打个呼叫,就花掉许多 token。让它实行一个长周期任务,反而不怎样破钞 token。
有用户在外网论坛上平直把新驱散称为"骗局",称单个 prompt 就破钞了 13% 的配额,某些 Gemini AI Plus 功能一次能烧掉快要 30%。
那为什么 Gemini 3.5 Flash 阐扬会这样一般?
谜底藏在 benchmark 里,Flash 的阐扬相配不平衡。
Gemini 3.5 Flash 在 Terminal-Bench 2.1、MCP Atlas、Toolathlon、OSWorld 这类 Agent、器具调用、代码实行榜单上阐扬可以。Terminal-Bench 2.1 拿到 76.2%,MCP Atlas 拿到 83.6%,都算是头部收货。
这些榜单测的是模子能弗成按照指示调用器具、实行大呼、完成多门径操作。Flash 在这些方面如实有上风。
但在更接近"灵敏不灵敏"的概述推理榜上,它的阐扬就有点丢脸了。
Humanity ‘ s Last Exam 是 40.2%,低于 Gemini 3.1 Pro 的 44.4% 和 Claude Opus 4.7 的 46.9%。ARC-AGI-2 是 72.1%,低于 Gemini 3.1 Pro 的 77.1% 和 GPT-5.5 的 84.6%。GDPval-AA 也低于 Claude Opus 和 GPT-5.5。
也便是说,Gemini 3.5 Flash 有点"蠢"。你给它任务它能去干活,但它"智力不够"。它作念不了当今最火的复杂推理、长链分析、创意判断。
挂牵方面也有问题。
在谷歌的宣传中,Gemini 3.5 Flash 有最高 1M token 落魄文。但模子卡里的 MRCR v2 长落魄文测试深入,128k 平均收货是 77.3%,到 1M pointwise 唯有 26.6%。
Gemini 3.5 Flash 诚然能一口吃下许多内容,关联词到用的时候就运转隐晦了。
Artificial Analysis 的孤独测试平直打脸谷歌。
在编程指数(Coding Index)上,Artificial Analysis 给 Flash 打了 45.0 分,低于 Gemini 3.1 Pro 的 56.5 分,更远低于 GPT-5.5。
02 Gemini 期凌了谷歌的进口,导致模子问题会期凌 Google 的统共家具体验
谷歌 I/O 2026 上,皮查伊晓谕,Gemini 是谷歌全家具天地的连合层。
也便是说,Gemini 3.5 Flash 镶嵌到了谷歌绝大多数家具里。
外媒暗意," Gemini 正在变得无法避让"。
当年,一个 AI 不好用,你可以无须。你合计 ChatGPT 不行,可以换 Claude,还合计不好你可以根柢无须 AI。
但谷歌把 Gemini 放进统共进口以后,Gemini 3.5 Flash 的厄运体验,期凌了谷歌统共家具。
最典型的例子是 AI Overview 和 AI Mode 的" disregard/ignore/stop "故障。
用户搜索" disregard "" ignore "" stop "等单词时,谷歌 AI Overview 会把它们误判成指示,导致搜索遵守格外或空缺。
有用户在 X 上发帖说,搜索" disregard "这个词,AI Overview 不是给出界说,而是回复"解析了!我会忽略之前的领导,重新运转。"
搜索" stop ",AI Overview 说"没问题。我照旧住手现时操作。"
搜索" ignore ",AI Overview 说"收到。音书已忽略。"
镶嵌 Gemini 3.5 Flash 以后,AI Overview 把这些单词当成了对话指示,2026世界杯押注app官方版导致 AI Overview 把这些单词当成了对话指示。
问题不单出当今这几个词上。经过网友测试," remember "" start "" finished "" forget "这些词也会触发雷同故障。即便在搜索词里加上" definition ",也无法让 AI Overview 回反泛泛。
谷歌方面申报称,这个问题与 I/O 的新搜索发布无关,是 AI Overviews 自身问题,团队正在开荒。
搜索是谷歌的命脉,一朝搜索出了问题,统共东谈主都只会合计"谷歌要凉了"。
是以当今的压力给到了 Gemini 3.5 Pro。
外界信得过想看的,不是谷歌能弗成把 AI 塞进统共进口。这个问题照旧有谜底了,谷歌如实作念到了。外界想看的是,Google 能弗成拿出一个饱和灵敏、饱和踏实、饱和有劝服力的旗舰模子,重新施展注解我方在模子智力上莫得掉队。
这个任务 Flash 完成不了。它是一个实行型模子,速率快,颖悟活,但智力不够。它合乎作念 Agent 架构里的子任求实行器,配合强臆测器使用。但它不是旗舰,它撑不起谷歌在 AI 时期的门面。
最终只可落到 3.5 Pro。
面前,Gemini 3.5 Pro 还在里面测试中。官方博客暗意,"咱们也在死力开发 3.5 Pro。它照旧在里面使用,咱们期待下个月(6 月)推出。"
谷歌家具负责东谈主图尔西 · 多希(Tulsee Doshi)暗意," 3.5 Pro 像面孔司理,负责想明晰事情该怎样作念;Flash 像实行团队,负责把一个个具体任务跑完。信得过需要推理和臆测的地点,要交给更大的 Pro;仅仅需要快速调用器具、批量处理任务的地点,用 Flash 就够了。。"
这个架构联想自己没问题,问题在于 Pro 还没出来,许多场景只可让 Flash 一个东谈主苦苦硬撑。
是以 Gemini 3.5 Pro 变成了一个二次验货节点。
若是 3.5 Pro 出来后阐扬还可以,那谷歌落魄还能圆当年。
话术我都想好"全线镶嵌 Flash 是咱们一个尝试,给大家形成了一些不好的家具体验,不外咱们照旧发布了 3.5 Pro,皆备好用,宽宥大家体验"。
Flash 的问题可以被意会为一种谐和,Pro 才是信得过的实力展示。
但若是 3.5 Pro 阐扬不好,那谷歌在 AI 这块可以说是全面溃逃。
AI Overview 有初级缺欠、ChatBot 啰嗦、WorkSpace 破钞 token 过高导致价钱太贵、Antigravity 没什么起色。统共这些家具都会被 Gemini 牵累,从上风变成职守。
谷歌当今的处境很微妙。它有现款、有基础设施、有 DeepMind。但自从 3.0 Pro 之后,它就一直缺能打的旗舰模子。
3.5 Pro 要补的便是这个缺口。若是 3.5 Pro 作念不到,谷歌真就有可能步入 Meta 的后尘。
03 谷歌正在成为硬件公司
不外谷歌并非一败涂地,违反,在硬件这块,谷歌反而支棱起来了。
谷歌 2026 年 Q1 财报深入,公司收入 1099 亿好意思元,同比增长 22%。谷歌 Search & Other 收入 604 亿好意思元,同比增长 19%。YouTube 告白收入约 99 亿好意思元,同比增长 11%。谷歌 Cloud 收入 200 亿好意思元,同比增长 63%。
这施展谷歌仍然是一台赢利机器。
这份财报里最亮眼的数字,来自于谷歌 Cloud 的 63% 增长。
皮查伊在财报电话会上说,Cloud 的增长是"强盛需求"的遵守。其实这句话的试验,便是在说谷歌的 TPU 硬件和数据中心卖得相配好。
基于谷歌模子构建的 AI 处治决策同比增长近 800%。Gemini Enterprise 的付费月活用户环比增长 40%。通过 API 使用的 AI token 增长到每分钟 160 亿个,比第四季度的 100 亿增长了 60%。
Cloud 的 backlog(照旧签下,但还莫得说明成收入的合同金额)在本季度翻了一番,达到 4620 亿好意思元。
皮查伊说,"明显,咱们在短期内受到算力驱散。若是咱们或者猖狂需求,咱们的 Cloud 收入会更高。是以咱们正在渡过这个时刻,咱们正在投资,但咱们有一个巨大的长期臆测框架 …… 咱们看到了前所未有的契机。"
公司瞻望在异日 24 个月内完成 50% 的 backlog。
诚然谷歌基座模子不行,编程器具 Antigravity 阐扬也差强东谈意见,但 TPU 这块阐扬太好了。
我都怀疑,谷歌是不是忘了我方其实是一个互联网公司,不是一个硬件公司?
Anthropic、Meta 等外部大客户正在租用或采购谷歌 TPU 资源。
Anthropic 在 5 月晓谕与谷歌和 Broadcom 签署了新的多年期条约,扩大使用谷歌 Cloud 的 TPU。
这笔来往让 Anthropic 获取了多达 100 万个谷歌 AI 筹算芯片的使用权,价值数百亿好意思元,瞻望将在 2026 年带来特等 1 吉瓦的容量上线。
1 吉瓦的电厂,大要能给 35 万户家庭供电。
谷歌在 Google Cloud Next 2026 上晓谕了第八代 TPU,初次收受双芯片门径,差异针对磨练和推理联想专用架构,TPU 8t 和 TPU 8i。
尤其是 TPU 8t,它是专为大领域、筹算密集型的磨练责任准备的,具有更大的筹算吞吐量和更多的 scale-up 带宽。
TPU 8i 则是专为低延伸推理责任负载联想,Agent 干活要反复"念念考、调用器具、再念念考"。每一步慢少量,几十上百步下来就会很慢,是以低延伸对 Agent 绝顶紧迫。
或者你可以这样意会,TPU 8t 是给模子用的。
磨练前沿大模子便是让几万块芯片沿路赛马拉松。问题不是单块芯片够不够快,而是这几十万块芯片能弗成一直捏续地跑。
比如说某根相聚线坏了、某块芯片不亮了、系统需要重启查验点,那么通盘磨练集群就会因此蹧跶掉多数时候。
是以 Google 说 TPU 8t 的要点不是单纯"算力更强",而是让磨练经过更少中断。
谷歌说,TPU 8t 的联想主义,是 goodput 特等 97%。
所谓 goodput,你可以意会成信得过用于干活的时候。
比如一台机器表面上责任 100 小时,但中间故障、恭候、重启蹧跶了 10 小时,那有用责任时候唯有 90 小时,goodput 便是 90%。
Google 说 TPU 8t 主义特等 97% goodput,事理是它但愿大部分时候都真实在磨练,而不是在等开荒、等重启、等相聚收复。
为了完了特等 97% 的 goodput,谷歌给 TPU 8t 加入了许多横向进步性能的功能。比如系统发现何处坏了,可以自动绕路,无须东谈主手工停机修。
TPU 8i 则是给 Agent 用的。
Agent 推理是一个相配勤劳的事情,前文提到,Agent 不是回答一次就收尾了的,它会反复念念考、查尊府、调用器具、写代码、再查验、再修正。
一次任务可能要调用模子几十次以致上百次。
是以 TPU 8i 要点是让这些调用尽可能快。
它有 384MB 板载 SRAM,可以意会成芯片傍边有一派相配快的小挂牵区。Agent 短期挂牵就保留在这里,那么当 Agent 需要用这些挂牵的时候,就可以平直从这里面拿,从而减少往来搬数据的时候。
B体育官方网站首页入口它还用了更多 CPU 主机,也便是让傍边有更多"颐养员"维护安排数据输入输出、任务互助。Agent 跑起来不仅仅模子算一下,还要不休读数据、发申请、调器具、拿遵守,CPU 便是帮 TPU 处理这些杂活的。
微软也曾有过这样一个预测,到 2028 年将有 13 亿个 Agent 插足运行,这才是为什么,谷歌要把 TPU 分红 8t 和 8i,Agent 的归 Agent,磨练的归磨练。
和谷歌传统的互联网业务比较,TPU 反而是他们当今最硬的叙事。
但问题就在于,Anthropic 能用 TPU 造出 Claude Opus 4.7 以及当今的 Mythos,可谷歌只拿出来了 Gemini 3.5 Flash。
还真便是橘生淮南则为橘2026世界杯押注app官方版,生于淮北则为枳。