不等 Grok 5 了,xAI 改打「能說會拍」:Grok Voice 開口聊天、Grok Imagine 影片衝上生成排行榜第一

大家在等的 Grok 5 還沒來,但 xAI 在 6 月初一週內連發兩招 —— Grok Voice 讓你直接跟它語音對話,Grok Imagine Video 1.5 衝上「圖生影片」排行榜第一,能生 720p、最長 15 秒、還自帶聲音。這篇拆給你看這兩個工具,外加我做教材短影音、配音的實戰角度。

一個發光的 AI 核心同時生成一格電影畫面與聲波,旁邊有電影場記板與光構成的麥克風
示意圖(小達 AI 生成);資訊來源:xAI 產品發布資訊(Grok Voice 6/4、Grok Imagine Video 1.5 Preview 6/3,x.ai/news

這一週 xAI 端了什麼出來?

2026 年 6 月初,市場原本在等 6 兆參數的 Grok 5,結果它還在訓練、沒影。但 xAI 沒閒著,反而連發兩個「能說會拍」的工具:6 月 4 日上線 Grok Voice(手機 App 語音對話),6 月 3 日開放 API 的 Grok Imagine Video 1.5,直接衝上 Image-to-Video Arena 第一名。

為什麼是語音跟影片,不是更強的文字模型?

因為文字這塊,各家早就打到飽、差異越來越難拉開。真正還稀缺、還能搶的,是「直接生出帶聲音的影片」跟「自然的語音對話」。xAI 這一手等於宣告:下一個戰場是影片+語音,不是再多一個聊天框。

兩個新工具拆解

重點 1:Grok Voice —— 用講的,不用打字

核心:Grok Voice 把對話式的口語互動帶進 Grok 手機 App,你直接開口跟它聊,它開口回你,省去打字。

意義:語音是最低門檻的介面 —— 不會打字、開車、走路都能用。誰把語音做得自然,誰就更容易擠進一般人的日常。

重點 2:Grok Imagine Video 1.5 —— 圖生影片、還自帶聲音

核心:它能把一張圖生成最長 15 秒、720p 的影片,而且原生帶音訊,在 Image-to-Video Arena 排到第一。

關鍵差異:「自帶聲音」這點很重要 —— 多數圖生影片只給你畫面、聲音要另外配,能一次連聲音生出來,省掉一大段後製。

重點 3:Grok 5 本尊還在後面

核心:真正的旗艦 Grok 5(傳 6 兆參數、多代理系統)還在訓練、沒有正式發布日。xAI 先用語音、影片這些「產品面」的東西維持聲量,本尊還沒上桌。

我自己怎麼用:這正中我做教材的工作

這兩個工具正中我的本業。我做教育訓練教材,常要做短影音、要配旁白 —— 我甚至把自己的聲音克隆成 TTS 來配音。AI 能一鍵生出「會動又有聲」的短片,對我這種要快速產教材的人,是直接的生產力提升。

但我也踩過坑,要老實講:AI 生的素材,最後都得過「第一線同仁、沒有技術背景的人看不看得懂」這一關。炫不等於有用。很多時候我寧可用一段樸素但講清楚的影片,也不要一段很酷但讓人看不懂在演什麼的 AI 影片。工具越強,這個判斷反而越重要。

套用前,有幾點要先想清楚

圖生影片還有「詭異感」與一致性問題。人臉、手、連續動作常出包,正式用途要逐格檢查,別直接上。

商用授權要看清楚。拿 AI 生的影片做商業教材、對外發布前,務必確認該工具的使用條款與版權規範。

Grok 內容尺度較寬,注意品牌風險。Grok 一向以「比較敢」著稱,企業或對外場合使用,要留意產出內容會不會踩到品牌的線。


本文整理自 xAI 2026 年 6 月初的產品發布資訊(Grok Voice、Grok Imagine Video 1.5 Preview),規格依公開資料整理,案例與心得為作者本人補充。來源:xAI NewsxAI Release Notes

留言