LLMトークンコスト削減の全体像
AI Agentを本番運用すると、最大のコスト要因はLLM APIのトークン利用料となります。本記事では、実際の開発現場で効果が実証された削減テクニックを体系的に解説します。
1. プロンプト設計の最適化
システムプロンプトの圧縮
冗長な指示は削除し、箇条書きで要点のみ記述します。「〜してください。なお〜を注意して。また〜も確認して」のような文章型プロンプトは、トークン数が2〜3倍になりがちです。
Before(高コスト):
あなたは優秀なカスタマーサポート担当者です。ユーザーからの質問に対して、
丁寧で分かりやすい言葉で回答してください。専門用語は避け、初心者にも
わかるよう説明することを心がけてください。
After(最適化):
CS担当。丁寧・平易な言葉で回答。専門用語は使わない。
Few-shotサンプルの厳選
Few-shotの例は必要最小限に。多くの場合、1〜2例で十分です。
2. Prompt Cachingの活用
OpenAI・AnthropicともにPrompt Cachingが利用可能です。静的なシステムプロンプト・コンテキストをキャッシュすることで、最大90%のコスト削減が可能です。
# Anthro