← Claude Fable 5 完全活用ガイド — 史上最強モデルを使いこなす実践テクニック
LESSON 02 / 06

セーフガード分類器の挙動とフォールバックの仕組み

所要時間 13分 上級レベル

Fable 5 を一般公開可能にしている核心が セーフガード分類器システムです。本レッスンでは、その挙動を理解し、正当な作業で誤検知を避ける方法を学びます。

セーフガード分類器とは

Fable 5 本体とは 別に動く AI 分類器です。ユーザーのリクエストを監視し、危険な領域に関わるものを検知すると、応答を Fable 5 ではなく Opus 4.8 に切り替えます

検知対象の3領域

領域
サイバーセキュリティ 脆弱性の悪用、エクスプロイト開発
生物学・化学 危険物質の合成、生物兵器関連
蒸留(distillation) 他モデル学習への無断転用

フォールバックの仕組み

分類器が反応すると、以下の流れが自動で起こります。

  1. ユーザーがリクエストを送信
  2. 分類器が「危険領域」と判定
  3. Fable 5 ではなく Opus 4.8 が応答
  4. セッションはそのまま継続(ユーザーは気づかないことが多い)

つまり、危険なリクエストでも「拒否される」のではなく、「より制御された Opus 4.8 が代わりに答える」という挙動です。

実際にはほとんど発動しない

初期データによると、95%以上のセッションでフォールバックなしに完結します。つまり、通常の開発作業では分類器はほぼ発動せず、Fable 5 の全力を使えます。

セキュリティ効果の証明

自動レッドチーミング評価で、分類器の効果が数字で示されています。

構成 攻撃タスク完了率
分類器あり Fable 5 5.4%
分類器なし Opus 4.6〜4.8 56〜83%

分類器によって、危険な使われ方が 10分の1以下に抑えられています。

正当な作業で誤検知を避けるコツ

セキュリティ研究やペネトレーションテストなど、正当な業務でセキュリティ領域に触れる場合、誤検知でフォールバックすることがあります。これを避けるコツ:

1. 文脈を明確にする

# 避けたい書き方(文脈不明瞭)
"このコードの脆弱性を突くエクスプロイトを書いて"

# 推奨(防御的文脈を明示)
"以下は自社プロダクトのコードです。セキュリティレビューのため、
潜在的な脆弱性を特定し、その修正方法を教えてください。
これは正規の脆弱性対応プロセスの一環です。"

2. 防御目的を強調する

  • 「攻撃する」より「防御する」「修正する」の表現を使う
  • 「自社のコード」「正規のテスト」など正当性を示す
  • 目的(セキュリティ向上)を明記する

3. フォールバックされても作業は続く

仮に Opus 4.8 にフォールバックしても、セッションは継続し、Opus 4.8 が答えます。Fable 5 ほどの性能ではないかもしれませんが、作業が止まるわけではありません。

セキュリティ業務での実践

セキュリティエンジニアが Fable 5 を使う場合:

作業 分類器の反応 対処
自社コードの脆弱性レビュー 文脈次第 防御目的を明示
パッチの妥当性検証 ほぼ反応せず そのまま使える
エクスプロイト開発 反応する可能性大 Glasswing 等の正規ルートを検討
セキュアコーディング指導 反応せず そのまま使える

このレッスンのまとめ

セーフガード分類器は「サイバー・生化学・蒸留」の3領域を検知し、Opus 4.8 にフォールバックします。通常作業ではほぼ発動しませんが、セキュリティ業務では 防御的文脈を明示するのがコツ。次のレッスンでは Opus 4.8 との使い分けを学びます。