Claude Fable 5 完全活用ガイド — 史上最強モデルを使いこなす実践テクニック
0 / 6 完了
(0%)
LESSON 02
/ 06
セーフガード分類器の挙動とフォールバックの仕組み

Fable 5 を一般公開可能にしている核心が セーフガード分類器システムです。本レッスンでは、その挙動を理解し、正当な作業で誤検知を避ける方法を学びます。
セーフガード分類器とは
Fable 5 本体とは 別に動く AI 分類器です。ユーザーのリクエストを監視し、危険な領域に関わるものを検知すると、応答を Fable 5 ではなく Opus 4.8 に切り替えます。
検知対象の3領域
| 領域 | 例 |
|---|---|
| サイバーセキュリティ | 脆弱性の悪用、エクスプロイト開発 |
| 生物学・化学 | 危険物質の合成、生物兵器関連 |
| 蒸留(distillation) | 他モデル学習への無断転用 |
フォールバックの仕組み
分類器が反応すると、以下の流れが自動で起こります。
- ユーザーがリクエストを送信
- 分類器が「危険領域」と判定
- Fable 5 ではなく Opus 4.8 が応答
- セッションはそのまま継続(ユーザーは気づかないことが多い)
つまり、危険なリクエストでも「拒否される」のではなく、「より制御された Opus 4.8 が代わりに答える」という挙動です。
実際にはほとんど発動しない
初期データによると、95%以上のセッションでフォールバックなしに完結します。つまり、通常の開発作業では分類器はほぼ発動せず、Fable 5 の全力を使えます。
セキュリティ効果の証明
自動レッドチーミング評価で、分類器の効果が数字で示されています。
| 構成 | 攻撃タスク完了率 |
|---|---|
| 分類器あり Fable 5 | 5.4% |
| 分類器なし Opus 4.6〜4.8 | 56〜83% |
分類器によって、危険な使われ方が 10分の1以下に抑えられています。
正当な作業で誤検知を避けるコツ
セキュリティ研究やペネトレーションテストなど、正当な業務でセキュリティ領域に触れる場合、誤検知でフォールバックすることがあります。これを避けるコツ:
1. 文脈を明確にする
# 避けたい書き方(文脈不明瞭)
"このコードの脆弱性を突くエクスプロイトを書いて"
# 推奨(防御的文脈を明示)
"以下は自社プロダクトのコードです。セキュリティレビューのため、
潜在的な脆弱性を特定し、その修正方法を教えてください。
これは正規の脆弱性対応プロセスの一環です。"
2. 防御目的を強調する
- 「攻撃する」より「防御する」「修正する」の表現を使う
- 「自社のコード」「正規のテスト」など正当性を示す
- 目的(セキュリティ向上)を明記する
3. フォールバックされても作業は続く
仮に Opus 4.8 にフォールバックしても、セッションは継続し、Opus 4.8 が答えます。Fable 5 ほどの性能ではないかもしれませんが、作業が止まるわけではありません。
セキュリティ業務での実践
セキュリティエンジニアが Fable 5 を使う場合:
| 作業 | 分類器の反応 | 対処 |
|---|---|---|
| 自社コードの脆弱性レビュー | 文脈次第 | 防御目的を明示 |
| パッチの妥当性検証 | ほぼ反応せず | そのまま使える |
| エクスプロイト開発 | 反応する可能性大 | Glasswing 等の正規ルートを検討 |
| セキュアコーディング指導 | 反応せず | そのまま使える |
このレッスンのまとめ
セーフガード分類器は「サイバー・生化学・蒸留」の3領域を検知し、Opus 4.8 にフォールバックします。通常作業ではほぼ発動しませんが、セキュリティ業務では 防御的文脈を明示するのがコツ。次のレッスンでは Opus 4.8 との使い分けを学びます。