セーフガード分類器の挙動とフォールバックの仕組み

0 / 6 完了（0%）

Fable 5 を一般公開可能にしている核心が セーフガード分類器システムです。本レッスンでは、その挙動を理解し、正当な作業で誤検知を避ける方法を学びます。

セーフガード分類器とは

Fable 5 本体とは 別に動く AI 分類器です。ユーザーのリクエストを監視し、危険な領域に関わるものを検知すると、応答を Fable 5 ではなく Opus 4.8 に切り替えます。

分類器が反応すると、以下の流れが自動で起こります。

つまり、危険なリクエストでも「拒否される」のではなく、「より制御された Opus 4.8 が代わりに答える」という挙動です。

初期データによると、95%以上のセッションでフォールバックなしに完結します。つまり、通常の開発作業では分類器はほぼ発動せず、Fable 5 の全力を使えます。

自動レッドチーミング評価で、分類器の効果が数字で示されています。

構成	攻撃タスク完了率
分類器あり Fable 5	5.4%
分類器なし Opus 4.6〜4.8	56〜83%

分類器によって、危険な使われ方が 10分の1以下に抑えられています。

セキュリティ研究やペネトレーションテストなど、正当な業務でセキュリティ領域に触れる場合、誤検知でフォールバックすることがあります。これを避けるコツ：

# 避けたい書き方（文脈不明瞭）
"このコードの脆弱性を突くエクスプロイトを書いて"

# 推奨（防御的文脈を明示）
"以下は自社プロダクトのコードです。セキュリティレビューのため、
潜在的な脆弱性を特定し、その修正方法を教えてください。
これは正規の脆弱性対応プロセスの一環です。"

仮に Opus 4.8 にフォールバックしても、セッションは継続し、Opus 4.8 が答えます。Fable 5 ほどの性能ではないかもしれませんが、作業が止まるわけではありません。

セキュリティエンジニアが Fable 5 を使う場合：

セーフガード分類器は「サイバー・生化学・蒸留」の3領域を検知し、Opus 4.8 にフォールバックします。通常作業ではほぼ発動しませんが、セキュリティ業務では 防御的文脈を明示するのがコツ。次のレッスンでは Opus 4.8 との使い分けを学びます。