出國、服務外國客人不用再比手畫腳?Gemini 3.5 Live Translate:邊講邊翻、70 種語言、慢你幾秒就跟上

以前的翻譯 App 要你講完一句、停、等它翻,一來一回超出戲。Google 6 月 9 號上線的 Gemini 3.5 Live Translate 改成「邊講邊翻」—— 你還在講,它落後幾秒就同步翻出來,70 多種語言、連你的語調語速都保留。免費、App 已經全球上線。這篇把它怎麼運作拆給你看,外加我從教育訓練跟門市現場的角度看它能幹嘛。

兩個不同文化的人興奮對話,一條發光的語音彩帶在空中即時變成另一種語言,背後是發光地球與各國語言符號
示意圖(小達 AI 生成);資訊來源:Google 官方 blog「Fluid, natural voice translation with Gemini 3.5 Live Translate」(blog.google

這是什麼、什麼時候上的?

2026 年 6 月 9 日,Google 推出 Gemini 3.5 Live Translate,是它最新的語音模型,做到接近即時的「語音轉語音」翻譯,支援 70 多種語言、還會自動偵測你在講哪一種。

它不是只活在某個 App 裡。Google Translate App 在 Android/iOS 全球上線、免註冊就能用;Google Meet 企業版本月起進 private preview(語言數從 5 種一口氣跳到 70 多種);開發者也能透過 Gemini Live API 接進自己的產品。

為什麼舊的翻譯「卡卡的」?

傳統 turn-by-turn(你一句、我一句)的翻譯系統,要等你整句講完才開始翻。對話一來一回都得停頓等待,講久了很累、也很出戲。

Google 官方點出它跟舊系統的差別:「不像那種要等講者說完才回應的逐句系統,3.5 Live Translate 會持續地生成語音,在『等更多上下文以提高品質』跟『立刻翻譯』之間取得平衡。」

它怎麼做到「邊講邊翻還很自然」?

心法 1:邊聽邊翻,不等你講完

核心動作:它處理語音是「流式」的 —— 你還在講,它就開始翻,只落後你幾秒,對話不會卡在那個尷尬的停頓。

為什麼重要:真正的對話是連續的。能邊講邊跟上,才像在跟人聊天,而不是在操作一台機器。

心法 2:保留語調、語速、音高

核心動作:翻出來的不是冷冰冰的機器音,它會保留講者的抑揚頓挫、講話節奏跟音高,聽起來自然得多。

小結:翻譯的「對不對」是基本,「像不像真人在講」才是這次的升級重點。

心法 3:落地在你已經在用的地方,還有「聽筒模式」

核心動作:它沒有要你裝一個新 App,而是直接做進 Google Translate(免費全球)、Google Meet(企業)、開發者 API。Android 還多一個「聽筒模式」 —— 手機貼著耳朵,像在講電話一樣聽翻譯。

補充一個細節:所有翻出來的語音都打上 Google 的 SynthID 浮水印,標記它是 AI 生成的內容。

它跟舊翻譯差在哪?

跟你以前用的翻譯 App 比,升級在這四點:

  • 翻譯時機:舊的要講完整句才翻;Live Translate 邊講邊翻、只落後幾秒。
  • 語音:舊的是機械音、語氣全丟;Live Translate 保留你的語調、語速、音高。
  • 語言:支援 70 多種、還會自動偵測你在講哪一種。
  • 哪裡用:Google Translate App(免費全球)、Google Meet(企業)、開發者 API,Android 還有貼著耳朵聽的「聽筒模式」。

我自己怎麼看:門市、出國、教 AI 課都用得上

看到這個,我第一個想到的是門市現場。我做電信的教育訓練,第一線同仁常碰到外國客人來辦門號、問資費,以前靠比手畫腳加翻譯 App 一句一句卡。要是同仁手機就能「邊講邊翻、還保留語氣」,服務體驗會差很多 —— 客人不會在那邊乾等,同仁也不會手忙腳亂。

第二個想到出國。我自己去日本玩過 9 天,點餐、問路那種場合,「講完等它翻」最尷尬的就是那個停頓。邊講邊翻才像真的在跟人對話。Android 那個「貼著耳朵像講電話」的聽筒模式,根本就是為這種場合設計的。

第三個是我的本業。我一直跟學員講,AI 真正的價值是「把難的事變成你直覺就會用」。這次更新最強的其實不是技術,是它把「即時翻譯」做成一個免註冊、打開就用的 App —— 這正是我教第一線同仁時最愛舉的例子:好的 AI 不用你懂技術,按下去就會。

套用前,有幾點要先想清楚

「即時」是用準確度換來的。官方自己說它在「等更多上下文(更準)」跟「立刻翻(更快)」之間取平衡,落後幾秒、偶爾搶快,就可能少一點精準。醫療、法律、合約這種不能錯的場合,別全靠它。

Meet 的完整支援要等今年稍晚。企業版現在還是 private preview,別以為馬上全公司開會就能用。

翻出來的語音有 SynthID 浮水印。會被標記成 AI 生成的內容,正式或對外場合使用前,要知道有這件事。


本文整理自 Google 官方 blog「Fluid, natural voice translation with Gemini 3.5 Live Translate」(2026 年 6 月 9 日),功能與規格依官方公告整理,案例與心得為作者本人補充。原始公告:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-live-3-5-translate/

留言