AI 越強越危險？Anthropic 把史上最強模型開放給大眾，靠一道「自動降級」防線

Anthropic 前幾天才公開警告「AI 已經強到危險」，6 月 9 號卻把它史上最強、開放給一般大眾用過的模型 Fable 5 直接放出來。一邊喊危險、一邊放最強的，矛盾嗎？關鍵在它偷偷加的一套機制：偵測到敏感請求，就自動把這題交給一個比較保守的舊模型來答。這篇把這套安全設計拆給你看，外加我自己用 Claude Code 建 agent、在企業教 AI 課的觀察。

一個強大發光的 AI 能量球被高科技護盾守住，前面站著一個守門的小機器人 — 示意圖（小達 AI 生成）；資訊來源：Anthropic 官方公告「Claude Fable 5 and Claude Mythos 5」（anthropic.com）

這東西是誰、什麼時候放的？

2026 年 6 月 9 日，Anthropic 同時發了兩個模型：Fable 5（公開版，誰都能用）跟 Mythos 5（限縮版，只給可信任的資安與科學研究夥伴）。Fable 5 被官方定位成「我們開放給一般大眾用過最強的模型」，在幾乎所有測過的 benchmark 都是 state of the art，軟體工程、知識工作、視覺辨識、科學研究全都頂尖，甚至能在分子生物學提出新假設。

官方有一句話點出它的強項在哪：「任務越長、越複雜，Fable 5 領先我們其他模型的幅度就越大。」（The longer and more complex the task, the larger Fable 5's lead over our other models.）也就是說，越硬的活它越吃香。

模型越強，為什麼反而要綁更多安全？

道理其實很直覺。一個能做基因體研究、能提出分子生物學新假設的模型，同一套能力換個壞念頭，就可能被拿去碰生物化學、攻擊性網路、或是被「蒸餾」偷走拿去訓練競品。能力越大，被濫用的風險也跟著放大。

所以 Anthropic 才會一邊警告 AI 危險、一邊還是把最強的放出來 —— 因為它賭的是：與其把模型藏起來，不如放出來、但在它身上裝一道自動接住風險的網。這道網怎麼做，才是這次發布真正值得學的地方。

Anthropic 的解法：不是把模型變笨，是加一個「守門員」

機制 1：另外養一組分類器，專門抓三類高風險請求

核心動作：除了 Fable 5 本身，Anthropic 另外訓練了一組獨立的 AI 分類器，專門盯三類請求 —— 攻擊性網路、生物化學、模型蒸餾，連 jailbreak（越獄）嘗試也在偵測範圍。

為什麼這樣做：把「判斷危不危險」這件事，從主模型身上獨立出來交給專門的守門員，主模型該多強就多強，安全判斷不拖累它的能力。

小結：能力歸能力、安全歸安全，兩件事分開做，才不會為了安全把模型閹割掉。

機制 2：偵測到踩線，這題自動降級給 Opus 4.8 回答

核心動作：一旦分類器判定某個請求踩到那三條線，這題就不給 Fable 5 答，自動轉給較舊、較保守的 Claude Opus 4.8 來處理，而且使用者會收到「這題被轉接了」的通知。

為什麼這樣做：與其直接拒答惹毛使用者，不如降級到一個能力稍弱但更可控的模型 —— 既不開天窗，又把風險壓下來。這就是「fallback（後備降級）」的精神。

機制 3：用數據證明「這道網不擾民」

核心動作：Anthropic 直接攤數據 —— 超過 95% 的對話完全不會觸發 fallback，對絕大多數人來說，用起來就跟那個限縮版的 Mythos 5 一樣強。官方原文：「more than 95% of Fable sessions involve no fallback at all.」

證據：外部的 bug bounty 跑了超過 1000 小時，沒找到任何能通殺的 jailbreak；外部紅隊（red-team）演練也空手而回。

小結：安全機制最怕「為了擋壞人，把好人也擋了」。Anthropic 用「95% 不降級」這個數字，回應的就是這個疑慮。

Fable 5 跟 Mythos 5 差在哪？

這次一口氣發兩個模型，差別我整理成這幾條：

開放對象：Fable 5 是公開版、誰都能用；Mythos 5 是限縮版，只給可信任的資安與科研夥伴。
能力：兩個都是頂尖等級，Fable 5 被定位成「開放給一般大眾用過最強的」。
安全機制：Fable 5 靠分類器偵測高風險請求、自動轉給 Opus 4.8 回答；Mythos 5 則靠夥伴審核與管控把關。
定價：Fable 5 每百萬 token 輸入 10 美元、輸出 50 美元，比一般模型高一截。

我自己怎麼看：建 agent、教企業 AI 課都在意這件事

看完最有感的是，這套「護欄」思維不是 Anthropic 工程師的專利，我自己用 Claude Code 搭了一隻叫小達的 AI 助理（最近還從 Telegram 搬到 Discord），每天幫我跑工作流。建 agent 跑久了我的體會是：最怕的從來不是它不夠強，是它「太敢」 —— 你給它權限，它哪天自作主張把不該動的動了、把不該講的講了，就出事。

身為教育訓練講師，我在企業教 AI 課，第一線同仁跟主管最常問我的一句就是：「這東西會不會亂講話、會不會把不該說的說出去？」Anthropic 這套「偵測到敏感就自動換一個更保守的模型來答、還留通知」，本質上就是企業導入 AI 一定要的兩件事：護欄（guardrail）＋人留在關鍵決策上（human in the loop）。

所以我都跟學員這樣講：別只追「哪個模型最強」，要問「它出包的時候，背後有沒有一道自動接住的網」。Fable 5 把這道網直接做進模型裡，剛好是個現成的好教材。

套用前，有幾點要先想清楚

那 5% 會拿到比較弱的答案。你問的東西若被判定踩線，回你的是 Opus 4.8、不是 Fable 5，品質會有落差 —— 而且不是你能選的。

分類器會誤判。正當的資安研究員、生醫工作者，很可能被當成高風險而被降級。這是所有「自動偵測」型安全設計的老問題，不是 Anthropic 獨有。

它不便宜。每百萬 token 輸入 $10、輸出 $50，比一般模型高一截。不是每個任務都該動用最強的，該用輕量模型的別硬上。

安全不等於沒風險。紅隊找不到漏洞，只代表門檻被拉高，不代表不存在。把它當「更安全」、別當「絕對安全」。

本文整理自 Anthropic 官方公告「Claude Fable 5 and Claude Mythos 5」（2026 年 6 月 9 日），數據與引述依官方公告整理，案例與心得為作者本人補充。原始公告：https://www.anthropic.com/news/claude-fable-5-mythos-5

董達達3C私塾

搜尋此網誌