Claude API & Claude Code 活用
0 / 6 完了 (0%
← Claude API & Claude Code 活用
LESSON 02 / 06

プロンプトキャッシュでコストを最大90%削減

所要時間 14分 更新: 2026年4月29日 上級レベル

Claude API には「プロンプトキャッシュ」という機能があり、これを正しく使うと運用コストを 50〜90% 削減できることがあります。

プロンプトキャッシュの仕組み

システムプロンプトや長い参照ドキュメントなど、リクエスト間で繰り返し送信する部分を、サーバー側でキャッシュする機能です。キャッシュヒットした入力トークンは、通常料金の 10% 程度で再利用できます。

有効化する方法

from anthropic import Anthropic

client = Anthropic()

response = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "あなたは熟練のテクニカルライターです。" + LARGE_STYLE_GUIDE,
            "cache_control": {"type": "ephemeral"}  # この部分をキャッシュ
        }
    ],
    messages=[
        {"role": "user", "content": "今日のテーマは...についてブログを書いて"}
    ],
)
print(response.usage)
# cache_creation_input_tokens, cache_read_input_tokens が確認できる

キャッシュが効くシーン

  • 長いシステムプロンプト:会社のスタイルガイド・FAQ・規程
  • 大規模ドキュメント分析:同じPDFに対して複数の質問を投げる
  • Few-shot の例示部分:例の集合は変わらない
  • マルチターン会話:会話履歴の前半を固定キャッシュ

キャッシュの寿命と注意点

  • デフォルトTTLは5分(最後のヒットからカウント)
  • キャッシュ作成時は通常料金の 1.25倍 の課金
  • 最低1024トークン(モデルにより異なる)必要
  • システム → ツール → メッセージの順でキャッシュブレークポイントが効く

コスト試算(実例)

10000トークンのシステムプロンプトを1日100回使うケース:

  • キャッシュなし: 100 × 10000 = 1,000,000 トークン × $3 = $3.0/日
  • キャッシュあり: 1回作成 + 99回読込 ≒ $0.5/日

約83%のコスト削減。

このレッスンのまとめ

プロンプトキャッシュは本番運用で最初に検討すべき最適化です。次のレッスンでは「ツール使用(Tool Use)」で Claude を外部APIと連携させる方法を学びます。

やってみよう(演習)

  1. システムプロンプトにキャッシュを設定して動作確認
  2. usage.cache_creation/cache_read を確認
  3. キャッシュあり/なしのコスト比較を実装

到達度チェックリスト

  • プロンプトキャッシュの仕組みを理解
  • cache_control の書き方を覚えた
  • コスト削減効果を数値で計算できる

よくある失敗パターン

  • キャッシュを設定したつもりが、毎回内容を変えていてヒットしない
  • キャッシュ作成時の追加課金(1.25倍)を考慮せず、短時間タスクで損する
  • TTL(5分)を超えてキャッシュが消えても、消えたことに気付かない

よくある質問(Q&A)

Q. キャッシュヒット率はどうやって測りますか?

A. API レスポンスの usage.cache_read_input_tokens を集計し、合計入力トークン数に対する比率を計算します。

Q. キャッシュ可能な最小トークン数は?

A. 現在の仕様では 1024 トークン(モデルにより異なる場合あり)。短すぎるシステムプロンプトはキャッシュできません。

Q. キャッシュは複数のキー単位で使えますか?

A. はい。system / tools / messages の異なる位置に cache_control を置いて、複数のキャッシュブレークポイントを設定できます。

よくある質問

この記事に関連する質問と答えをまとめました。

Q.プロンプトキャッシュとは何ですか?
A.
長いシステムプロンプトを再利用してコストとレイテンシを最大90%削減する仕組みです。FAQ Bot や知識ベース活用など、システムプロンプトが固定のサービスでは必須機能です。
Q.キャッシュの料金体系は?
A.
初回(書き込み)は通常料金の1.25倍、2回目以降(読み込み)は通常の0.1倍です。同じプロンプトが何度も使われるユースケースほど、累積で大きく節約できます。

理解度チェック(クイズ)

このレッスンの理解度を確認してみましょう。全問終わると最高記録が保存されます。

読み込み中…