不等 Grok 5 了，xAI 改打「能說會拍」：Grok Voice 開口聊天、Grok Imagine 影片衝上生成排行榜第一

大家在等的 Grok 5 還沒來，但 xAI 在 6 月初一週內連發兩招 —— Grok Voice 讓你直接跟它語音對話，Grok Imagine Video 1.5 衝上「圖生影片」排行榜第一，能生 720p、最長 15 秒、還自帶聲音。這篇拆給你看這兩個工具，外加我做教材短影音、配音的實戰角度。

一個發光的 AI 核心同時生成一格電影畫面與聲波，旁邊有電影場記板與光構成的麥克風 — 示意圖（小達 AI 生成）；資訊來源：xAI 產品發布資訊（Grok Voice 6/4、Grok Imagine Video 1.5 Preview 6/3，x.ai/news）

這一週 xAI 端了什麼出來？

2026 年 6 月初，市場原本在等 6 兆參數的 Grok 5，結果它還在訓練、沒影。但 xAI 沒閒著，反而連發兩個「能說會拍」的工具：6 月 4 日上線 Grok Voice（手機 App 語音對話），6 月 3 日開放 API 的 Grok Imagine Video 1.5，直接衝上 Image-to-Video Arena 第一名。

為什麼是語音跟影片，不是更強的文字模型？

因為文字這塊，各家早就打到飽、差異越來越難拉開。真正還稀缺、還能搶的，是「直接生出帶聲音的影片」跟「自然的語音對話」。xAI 這一手等於宣告：下一個戰場是影片＋語音，不是再多一個聊天框。

兩個新工具拆解

重點 1：Grok Voice —— 用講的，不用打字

核心：Grok Voice 把對話式的口語互動帶進 Grok 手機 App，你直接開口跟它聊，它開口回你，省去打字。

意義：語音是最低門檻的介面 —— 不會打字、開車、走路都能用。誰把語音做得自然，誰就更容易擠進一般人的日常。

重點 2：Grok Imagine Video 1.5 —— 圖生影片、還自帶聲音

核心：它能把一張圖生成最長 15 秒、720p 的影片，而且原生帶音訊，在 Image-to-Video Arena 排到第一。

關鍵差異：「自帶聲音」這點很重要 —— 多數圖生影片只給你畫面、聲音要另外配，能一次連聲音生出來，省掉一大段後製。

重點 3：Grok 5 本尊還在後面

核心：真正的旗艦 Grok 5（傳 6 兆參數、多代理系統）還在訓練、沒有正式發布日。xAI 先用語音、影片這些「產品面」的東西維持聲量，本尊還沒上桌。

我自己怎麼用：這正中我做教材的工作

這兩個工具正中我的本業。我做教育訓練教材，常要做短影音、要配旁白 —— 我甚至把自己的聲音克隆成 TTS 來配音。AI 能一鍵生出「會動又有聲」的短片，對我這種要快速產教材的人，是直接的生產力提升。

但我也踩過坑，要老實講：AI 生的素材，最後都得過「第一線同仁、沒有技術背景的人看不看得懂」這一關。炫不等於有用。很多時候我寧可用一段樸素但講清楚的影片，也不要一段很酷但讓人看不懂在演什麼的 AI 影片。工具越強，這個判斷反而越重要。

套用前，有幾點要先想清楚

圖生影片還有「詭異感」與一致性問題。人臉、手、連續動作常出包，正式用途要逐格檢查，別直接上。

商用授權要看清楚。拿 AI 生的影片做商業教材、對外發布前，務必確認該工具的使用條款與版權規範。

Grok 內容尺度較寬，注意品牌風險。Grok 一向以「比較敢」著稱，企業或對外場合使用，要留意產出內容會不會踩到品牌的線。

本文整理自 xAI 2026 年 6 月初的產品發布資訊（Grok Voice、Grok Imagine Video 1.5 Preview），規格依公開資料整理，案例與心得為作者本人補充。來源：xAI News、xAI Release Notes。

董達達3C私塾

搜尋此網誌