AI 寫字一定要一個字一個字吐？Google 開源 DiffusionGemma：整段一次生出來、快 4 倍

我們習慣的 AI 像打字機，一個字接一個字往外吐，文字越長越慢。Google 6 月 10 號開源的 DiffusionGemma 反過來幹 —— 它借修圖的招，先把一整段「霧」鋪出來再逐步修清楚，一次平行生 256 個字，速度快到 4 倍。這篇把它怎麼辦到、代價是什麼拆給你看，外加我自己在本機跑 AI 工具「夠用就好」的取捨。

左邊一台老打字機緩慢運作，右邊一整段發光文字像光束般一次爆發噴出，下方一顆發光晶片 — 示意圖（小達 AI 生成）；資訊來源：Google 官方 blog「DiffusionGemma: 4x faster text generation」（blog.google）

這是什麼、誰放的？

2026 年 6 月 10 日，Google DeepMind 開源了 DiffusionGemma，掛在它的 Gemma 開源家族底下，採 Apache 2.0 授權，weights 直接載得到、自己架得起來。它是一個 26B 參數的 MoE（混合專家）模型，但推論時只啟用其中約 3.8B，所以跑起來比帳面參數輕得多。

名字裡的「Diffusion」是重點 —— 它把影像生成那套「擴散」技術，搬來生成文字。這在開源界是頭一個拿得到 weights 的文字擴散模型。

為什麼「一個字一個字」會慢？

你現在用的主流 LLM 幾乎都是 autoregressive（自迴歸）：從左到右，一次只生一個 token，下一個字一定要等前一個算完才能動。

這就像打字機，再快也是一鍵一鍵敲。文字越長、要等的次數越多，速度天生卡在這個架構上。DiffusionGemma 想解的，就是這個瓶頸。

DiffusionGemma 的解法：借修圖的招來寫字

心法 1：先鋪一整段「佔位符」，再逐步修清楚

核心動作：它不從左寫到右，而是先丟出一整段隨機的佔位 token，再經過好幾輪修正、逐步把它變成通順的成品 —— 就跟影像 diffusion 從一團雜訊慢慢修出一張圖一模一樣。一次平行處理 256 個 token。

為什麼這樣做：把「一個一個算」改成「一整塊一起算再一起修」，等待的次數大幅下降，速度自然上去。

小結：autoregressive 是打字機，diffusion 是顯影 —— 一張底片整片一起浮出來，不是一個字一個字寫。

心法 2：速度換來實打實的數字

證據：官方給的數據是 最高快 4 倍 —— 單張 NVIDIA H100 跑出 1000+ tokens/秒，連消費級的 RTX 5090 都有 700+ tokens/秒。量化之後，塞得進 18GB VRAM 的高階消費級顯卡。

為什麼重要：「能在一張自己買得起的顯卡上、用很快的速度本機跑」，對想自架、不想一直付雲端 API 的人來說，這個門檻差很多。

心法 3：雙向注意力，特別吃「填空」型任務

核心動作：因為它是整段一起看、所有 token 互相都看得到（雙向注意力），不像 autoregressive 只能看左邊。

為什麼這樣做：這讓它在 code infilling（補程式碼中間的空）、行內編輯這種「要顧及前後文」的非線性任務上反而占優勢 —— 因為它本來就是同時看全局的。

跟傳統模型到底差在哪？

拿它跟你現在在用的標準 Gemma 4 那種 autoregressive 模型比，差別在這四點：

生成方式：傳統是從左到右、一次一個 token；DiffusionGemma 是一次平行生 256 個 token 再逐步修。
速度：DiffusionGemma 最高快 4 倍（單張 H100 達 1000+ tokens/秒）。
輸出品質：這裡反過來 —— 官方明說 DiffusionGemma 比標準 Gemma 4 低。
最適合誰：要最高品質就用標準 Gemma 4；要速度、或做填空／行內編輯類任務，才換 DiffusionGemma。

我自己怎麼用：「夠用就好」的取捨我天天在做

這個「拿品質換速度」的取捨，我超級有感，因為我自己跑 AI 工作流就是一直在做這種選擇。

最直接的例子是我畫圖一律用 low 品質。不是不能開高，是大多數教材插圖、社群配圖，low 就夠用了，又快又省，真的要做印刷品才升上去。DiffusionGemma 這套「我知道品質低一點，但我要的是快」的邏輯，跟我那個決定是同一回事 —— 先想清楚你要的是品質還是速度，別反射性都挑最強最慢的。

第二個是我習慣「能在本機跑的就留在本機」。像語音轉文字、配音這些，我都讓它在自己的 Mac 上跑，不上雲、又快又不耗 API 額度。DiffusionGemma 開源、塞得進一張消費級顯卡，剛好就是這條「自己架、本機跑」路線會關心的東西。

第三個是教學現場。我跟門市同仁、一般學員都這樣翻譯這件事：不是每件事都要請「最聰明但最慢」的 AI，很多日常任務要的是「立刻給我、八成準就好」。學會分辨哪種任務該用哪種工具，比一味追最強的模型有用太多。

套用前，有幾點要先想清楚

品質真的比較低。Google 自己白紙黑字寫：「需要最高品質的應用，請用標準 Gemma 4。」所以別拿它去做要求精準、不能出錯的事。

那些速度數字是 H100 跑的。1000+ tokens/秒是資料中心級顯卡的成績，一般人家裡沒有；消費級的 RTX 5090、而且要量化之後才塞得進去。

它是實驗性質的開源模型。定位是給開發者玩、做研究用，不是要你無腦換掉現在在用的 AI。想嘗鮮、想自架的人值得試，一般使用者倒不急。

本文整理自 Google 官方 blog「DiffusionGemma: 4x faster text generation」（2026 年 6 月 10 日，Google DeepMind 發布），規格與數據依官方公告整理，案例與心得為作者本人補充。原始公告：https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/

董達達3C私塾

搜尋此網誌