Claude API & Claude Code 活用
0 / 6 完了
(0%)
LESSON 02
/ 06
プロンプトキャッシュでコストを最大90%削減

Claude API には「プロンプトキャッシュ」という機能があり、これを正しく使うと運用コストを 50〜90% 削減できることがあります。
プロンプトキャッシュの仕組み
システムプロンプトや長い参照ドキュメントなど、リクエスト間で繰り返し送信する部分を、サーバー側でキャッシュする機能です。キャッシュヒットした入力トークンは、通常料金の 10% 程度で再利用できます。
有効化する方法
from anthropic import Anthropic
client = Anthropic()
response = client.messages.create(
model="claude-sonnet-4-5",
max_tokens=1024,
system=[
{
"type": "text",
"text": "あなたは熟練のテクニカルライターです。" + LARGE_STYLE_GUIDE,
"cache_control": {"type": "ephemeral"} # この部分をキャッシュ
}
],
messages=[
{"role": "user", "content": "今日のテーマは...についてブログを書いて"}
],
)
print(response.usage)
# cache_creation_input_tokens, cache_read_input_tokens が確認できる
キャッシュが効くシーン
- 長いシステムプロンプト:会社のスタイルガイド・FAQ・規程
- 大規模ドキュメント分析:同じPDFに対して複数の質問を投げる
- Few-shot の例示部分:例の集合は変わらない
- マルチターン会話:会話履歴の前半を固定キャッシュ
キャッシュの寿命と注意点
- デフォルトTTLは5分(最後のヒットからカウント)
- キャッシュ作成時は通常料金の 1.25倍 の課金
- 最低1024トークン(モデルにより異なる)必要
- システム → ツール → メッセージの順でキャッシュブレークポイントが効く
コスト試算(実例)
10000トークンのシステムプロンプトを1日100回使うケース:
- キャッシュなし: 100 × 10000 = 1,000,000 トークン × $3 = $3.0/日
- キャッシュあり: 1回作成 + 99回読込 ≒ $0.5/日
約83%のコスト削減。
このレッスンのまとめ
プロンプトキャッシュは本番運用で最初に検討すべき最適化です。次のレッスンでは「ツール使用(Tool Use)」で Claude を外部APIと連携させる方法を学びます。
やってみよう(演習)
- システムプロンプトにキャッシュを設定して動作確認
- usage.cache_creation/cache_read を確認
- キャッシュあり/なしのコスト比較を実装
到達度チェックリスト
- プロンプトキャッシュの仕組みを理解
- cache_control の書き方を覚えた
- コスト削減効果を数値で計算できる
よくある失敗パターン
- キャッシュを設定したつもりが、毎回内容を変えていてヒットしない
- キャッシュ作成時の追加課金(1.25倍)を考慮せず、短時間タスクで損する
- TTL(5分)を超えてキャッシュが消えても、消えたことに気付かない
よくある質問(Q&A)
Q. キャッシュヒット率はどうやって測りますか?
A. API レスポンスの usage.cache_read_input_tokens を集計し、合計入力トークン数に対する比率を計算します。
Q. キャッシュ可能な最小トークン数は?
A. 現在の仕様では 1024 トークン(モデルにより異なる場合あり)。短すぎるシステムプロンプトはキャッシュできません。
Q. キャッシュは複数のキー単位で使えますか?
A. はい。system / tools / messages の異なる位置に cache_control を置いて、複数のキャッシュブレークポイントを設定できます。
よくある質問
この記事に関連する質問と答えをまとめました。
Q.プロンプトキャッシュとは何ですか?
A.
長いシステムプロンプトを再利用してコストとレイテンシを最大90%削減する仕組みです。FAQ Bot や知識ベース活用など、システムプロンプトが固定のサービスでは必須機能です。
Q.キャッシュの料金体系は?
A.
初回(書き込み)は通常料金の1.25倍、2回目以降(読み込み)は通常の0.1倍です。同じプロンプトが何度も使われるユースケースほど、累積で大きく節約できます。
理解度チェック(クイズ)
このレッスンの理解度を確認してみましょう。全問終わると最高記録が保存されます。
読み込み中…