Anthropic 前幾天才公開警告「AI 已經強到危險」,6 月 9 號卻把它史上最強、開放給一般大眾用過的模型 Fable 5 直接放出來。一邊喊危險、一邊放最強的,矛盾嗎?關鍵在它偷偷加的一套機制:偵測到敏感請求,就自動把這題交給一個比較保守的舊模型來答。這篇把這套安全設計拆給你看,外加我自己用 Claude Code 建 agent、在企業教 AI 課的觀察。
這東西是誰、什麼時候放的?
2026 年 6 月 9 日,Anthropic 同時發了兩個模型:Fable 5(公開版,誰都能用)跟 Mythos 5(限縮版,只給可信任的資安與科學研究夥伴)。Fable 5 被官方定位成「我們開放給一般大眾用過最強的模型」,在幾乎所有測過的 benchmark 都是 state of the art,軟體工程、知識工作、視覺辨識、科學研究全都頂尖,甚至能在分子生物學提出新假設。
官方有一句話點出它的強項在哪:「任務越長、越複雜,Fable 5 領先我們其他模型的幅度就越大。」(The longer and more complex the task, the larger Fable 5's lead over our other models.)也就是說,越硬的活它越吃香。
模型越強,為什麼反而要綁更多安全?
道理其實很直覺。一個能做基因體研究、能提出分子生物學新假設的模型,同一套能力換個壞念頭,就可能被拿去碰生物化學、攻擊性網路、或是被「蒸餾」偷走拿去訓練競品。能力越大,被濫用的風險也跟著放大。
所以 Anthropic 才會一邊警告 AI 危險、一邊還是把最強的放出來 —— 因為它賭的是:與其把模型藏起來,不如放出來、但在它身上裝一道自動接住風險的網。這道網怎麼做,才是這次發布真正值得學的地方。
Anthropic 的解法:不是把模型變笨,是加一個「守門員」
機制 1:另外養一組分類器,專門抓三類高風險請求
核心動作:除了 Fable 5 本身,Anthropic 另外訓練了一組獨立的 AI 分類器,專門盯三類請求 —— 攻擊性網路、生物化學、模型蒸餾,連 jailbreak(越獄)嘗試也在偵測範圍。
為什麼這樣做:把「判斷危不危險」這件事,從主模型身上獨立出來交給專門的守門員,主模型該多強就多強,安全判斷不拖累它的能力。
小結:能力歸能力、安全歸安全,兩件事分開做,才不會為了安全把模型閹割掉。
機制 2:偵測到踩線,這題自動降級給 Opus 4.8 回答
核心動作:一旦分類器判定某個請求踩到那三條線,這題就不給 Fable 5 答,自動轉給較舊、較保守的 Claude Opus 4.8 來處理,而且使用者會收到「這題被轉接了」的通知。
為什麼這樣做:與其直接拒答惹毛使用者,不如降級到一個能力稍弱但更可控的模型 —— 既不開天窗,又把風險壓下來。這就是「fallback(後備降級)」的精神。
機制 3:用數據證明「這道網不擾民」
核心動作:Anthropic 直接攤數據 —— 超過 95% 的對話完全不會觸發 fallback,對絕大多數人來說,用起來就跟那個限縮版的 Mythos 5 一樣強。官方原文:「more than 95% of Fable sessions involve no fallback at all.」
證據:外部的 bug bounty 跑了超過 1000 小時,沒找到任何能通殺的 jailbreak;外部紅隊(red-team)演練也空手而回。
小結:安全機制最怕「為了擋壞人,把好人也擋了」。Anthropic 用「95% 不降級」這個數字,回應的就是這個疑慮。
Fable 5 跟 Mythos 5 差在哪?
這次一口氣發兩個模型,差別我整理成這幾條:
- 開放對象:Fable 5 是公開版、誰都能用;Mythos 5 是限縮版,只給可信任的資安與科研夥伴。
- 能力:兩個都是頂尖等級,Fable 5 被定位成「開放給一般大眾用過最強的」。
- 安全機制:Fable 5 靠分類器偵測高風險請求、自動轉給 Opus 4.8 回答;Mythos 5 則靠夥伴審核與管控把關。
- 定價:Fable 5 每百萬 token 輸入 10 美元、輸出 50 美元,比一般模型高一截。
我自己怎麼看:建 agent、教企業 AI 課都在意這件事
看完最有感的是,這套「護欄」思維不是 Anthropic 工程師的專利,我自己用 Claude Code 搭了一隻叫小達的 AI 助理(最近還從 Telegram 搬到 Discord),每天幫我跑工作流。建 agent 跑久了我的體會是:最怕的從來不是它不夠強,是它「太敢」 —— 你給它權限,它哪天自作主張把不該動的動了、把不該講的講了,就出事。
身為教育訓練講師,我在企業教 AI 課,第一線同仁跟主管最常問我的一句就是:「這東西會不會亂講話、會不會把不該說的說出去?」Anthropic 這套「偵測到敏感就自動換一個更保守的模型來答、還留通知」,本質上就是企業導入 AI 一定要的兩件事:護欄(guardrail)+ 人留在關鍵決策上(human in the loop)。
所以我都跟學員這樣講:別只追「哪個模型最強」,要問「它出包的時候,背後有沒有一道自動接住的網」。Fable 5 把這道網直接做進模型裡,剛好是個現成的好教材。
套用前,有幾點要先想清楚
那 5% 會拿到比較弱的答案。你問的東西若被判定踩線,回你的是 Opus 4.8、不是 Fable 5,品質會有落差 —— 而且不是你能選的。
分類器會誤判。正當的資安研究員、生醫工作者,很可能被當成高風險而被降級。這是所有「自動偵測」型安全設計的老問題,不是 Anthropic 獨有。
它不便宜。每百萬 token 輸入 $10、輸出 $50,比一般模型高一截。不是每個任務都該動用最強的,該用輕量模型的別硬上。
安全不等於沒風險。紅隊找不到漏洞,只代表門檻被拉高,不代表不存在。把它當「更安全」、別當「絕對安全」。
本文整理自 Anthropic 官方公告「Claude Fable 5 and Claude Mythos 5」(2026 年 6 月 9 日),數據與引述依官方公告整理,案例與心得為作者本人補充。原始公告:https://www.anthropic.com/news/claude-fable-5-mythos-5
留言
張貼留言