AI 寫字一定要一個字一個字吐?Google 開源 DiffusionGemma:整段一次生出來、快 4 倍

我們習慣的 AI 像打字機,一個字接一個字往外吐,文字越長越慢。Google 6 月 10 號開源的 DiffusionGemma 反過來幹 —— 它借修圖的招,先把一整段「霧」鋪出來再逐步修清楚,一次平行生 256 個字,速度快到 4 倍。這篇把它怎麼辦到、代價是什麼拆給你看,外加我自己在本機跑 AI 工具「夠用就好」的取捨。

左邊一台老打字機緩慢運作,右邊一整段發光文字像光束般一次爆發噴出,下方一顆發光晶片
示意圖(小達 AI 生成);資訊來源:Google 官方 blog「DiffusionGemma: 4x faster text generation」(blog.google

這是什麼、誰放的?

2026 年 6 月 10 日,Google DeepMind 開源了 DiffusionGemma,掛在它的 Gemma 開源家族底下,採 Apache 2.0 授權,weights 直接載得到、自己架得起來。它是一個 26B 參數的 MoE(混合專家)模型,但推論時只啟用其中約 3.8B,所以跑起來比帳面參數輕得多。

名字裡的「Diffusion」是重點 —— 它把影像生成那套「擴散」技術,搬來生成文字。這在開源界是頭一個拿得到 weights 的文字擴散模型。

為什麼「一個字一個字」會慢?

你現在用的主流 LLM 幾乎都是 autoregressive(自迴歸):從左到右,一次只生一個 token,下一個字一定要等前一個算完才能動。

這就像打字機,再快也是一鍵一鍵敲。文字越長、要等的次數越多,速度天生卡在這個架構上。DiffusionGemma 想解的,就是這個瓶頸。

DiffusionGemma 的解法:借修圖的招來寫字

心法 1:先鋪一整段「佔位符」,再逐步修清楚

核心動作:它不從左寫到右,而是先丟出一整段隨機的佔位 token,再經過好幾輪修正、逐步把它變成通順的成品 —— 就跟影像 diffusion 從一團雜訊慢慢修出一張圖一模一樣。一次平行處理 256 個 token。

為什麼這樣做:把「一個一個算」改成「一整塊一起算再一起修」,等待的次數大幅下降,速度自然上去。

小結:autoregressive 是打字機,diffusion 是顯影 —— 一張底片整片一起浮出來,不是一個字一個字寫。

心法 2:速度換來實打實的數字

證據:官方給的數據是 最高快 4 倍 —— 單張 NVIDIA H100 跑出 1000+ tokens/秒,連消費級的 RTX 5090 都有 700+ tokens/秒。量化之後,塞得進 18GB VRAM 的高階消費級顯卡。

為什麼重要:「能在一張自己買得起的顯卡上、用很快的速度本機跑」,對想自架、不想一直付雲端 API 的人來說,這個門檻差很多。

心法 3:雙向注意力,特別吃「填空」型任務

核心動作:因為它是整段一起看、所有 token 互相都看得到(雙向注意力),不像 autoregressive 只能看左邊。

為什麼這樣做:這讓它在 code infilling(補程式碼中間的空)、行內編輯這種「要顧及前後文」的非線性任務上反而占優勢 —— 因為它本來就是同時看全局的。

跟傳統模型到底差在哪?

拿它跟你現在在用的標準 Gemma 4 那種 autoregressive 模型比,差別在這四點:

  • 生成方式:傳統是從左到右、一次一個 token;DiffusionGemma 是一次平行生 256 個 token 再逐步修。
  • 速度:DiffusionGemma 最高快 4 倍(單張 H100 達 1000+ tokens/秒)。
  • 輸出品質:這裡反過來 —— 官方明說 DiffusionGemma 比標準 Gemma 4 低。
  • 最適合誰:要最高品質就用標準 Gemma 4;要速度、或做填空/行內編輯類任務,才換 DiffusionGemma。

我自己怎麼用:「夠用就好」的取捨我天天在做

這個「拿品質換速度」的取捨,我超級有感,因為我自己跑 AI 工作流就是一直在做這種選擇。

最直接的例子是我畫圖一律用 low 品質。不是不能開高,是大多數教材插圖、社群配圖,low 就夠用了,又快又省,真的要做印刷品才升上去。DiffusionGemma 這套「我知道品質低一點,但我要的是快」的邏輯,跟我那個決定是同一回事 —— 先想清楚你要的是品質還是速度,別反射性都挑最強最慢的。

第二個是我習慣「能在本機跑的就留在本機」。像語音轉文字、配音這些,我都讓它在自己的 Mac 上跑,不上雲、又快又不耗 API 額度。DiffusionGemma 開源、塞得進一張消費級顯卡,剛好就是這條「自己架、本機跑」路線會關心的東西。

第三個是教學現場。我跟門市同仁、一般學員都這樣翻譯這件事:不是每件事都要請「最聰明但最慢」的 AI,很多日常任務要的是「立刻給我、八成準就好」。學會分辨哪種任務該用哪種工具,比一味追最強的模型有用太多。

套用前,有幾點要先想清楚

品質真的比較低。Google 自己白紙黑字寫:「需要最高品質的應用,請用標準 Gemma 4。」所以別拿它去做要求精準、不能出錯的事。

那些速度數字是 H100 跑的。1000+ tokens/秒是資料中心級顯卡的成績,一般人家裡沒有;消費級的 RTX 5090、而且要量化之後才塞得進去。

它是實驗性質的開源模型。定位是給開發者玩、做研究用,不是要你無腦換掉現在在用的 AI。想嘗鮮、想自架的人值得試,一般使用者倒不急。


本文整理自 Google 官方 blog「DiffusionGemma: 4x faster text generation」(2026 年 6 月 10 日,Google DeepMind 發布),規格與數據依官方公告整理,案例與心得為作者本人補充。原始公告:https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/

留言