運用 / コスト

業務AIの「コスト設計」入門 — トークン課金で破綻しないために

「使ってみたら月の請求が想定の10倍だった」——業務AI/RAG導入の現場で、本当に起きます。トークン単価は安くても、ユーザー数・参照ドキュメント・履歴・エージェント呼び出し回数が掛け算で効いてくるからです。コスト設計は、後付けではなく設計段階に組み込むべき要件です。

そもそも何にお金がかかるのか

LLM利用のコストは大きく分けて3層あります。

  1. モデル利用料(API):入力/出力トークン × 単価。ほとんどのコストはここ。
  2. 埋め込み・ベクトル検索:ドキュメント数 × ベクトル次元数。RAGならここも無視できない。
  3. インフラ:サーバー・ストレージ・ログ。LLMコストに比べると相対的に小さい。

コストが膨らむ典型パターン

① 履歴を全部詰め込む

チャット履歴をぜんぶプロンプトに乗せると、ターンを重ねるごとに入力トークンが線形に増えます。10ターン目には初回の10倍。

② RAGコンテキストが太い

「Top-5を全部入れる」を素直に実装すると、1回の質問で数千〜万トークンの入力が発生します。Rerankerで絞らないと崩壊します。

③ エージェントの再帰呼び出し

Function CallingベースのAIエージェントは、判断→ツール呼び出し→再判断、と内部で複数回LLMを叩きます。1ユーザーリクエストが平均5〜10回のLLM呼び出しになることも。

④ 全部 Opus / GPT-5 で叩く

「高精度モデルを使えば安心」と全リクエストを最上位モデルに飛ばすと、コストは桁で違います。タスクによってはHaiku/Geminiで十分。

設計段階で組み込むべき5つの対策

1. プロンプトキャッシュ

Claude/GPTの prompt caching を使うと、システムプロンプト・固定ドキュメントを再利用時に大幅割引できます。長文ドキュメントを毎回送るRAGでは効果絶大。

// Claude prompt caching の例
{
  "system": [
    { "type": "text", "text": "あなたは社内ナレッジアシスタントです。" },
    { "type": "text", "text": longDocument, "cache_control": { "type": "ephemeral" } }
  ]
}

2. モデル切替(ルーター)

クエリの難易度を簡易判定し、簡単な質問はHaiku/Flash、複雑な質問だけOpus/GPT-5へ。「タスク分類器→モデル選択」を入れるだけで体感の品質は変えず30〜60%コスト減のケースが多いです。

3. RAGコンテキストの動的圧縮

Top-Kは固定にせず、回答に必要な箇所だけを抽出する「Context Compression」を入れる。LlamaIndexのContext Compressorなどが定番。

4. 履歴の要約

長くなったチャット履歴は、定期的に要約してプロンプト先頭に置き、生履歴は破棄。トークンを線形に増やさない設計を最初から組み込む。

5. スコープ制御(ガード)

「全社員が無制限に叩ける」状態は、コスト面でもリスク。ユーザー単位・チーム単位の利用上限/月次予算アラートを最初から実装する。

実例 — 月額コストが1/4になった案件

ある社内ナレッジRAGで、運用開始3ヶ月後の月額コストが想定の3倍に達していました。プロンプトキャッシュ・モデル切替・履歴要約の3つを入れ替えて、翌月から1/4まで圧縮。精度はむしろ向上しました。

「目に見える」コストモニタが必要

LLMコストは設計時の見積よりも、運用後の計測と可視化のほうが重要です。下記4軸でダッシュボードを置きましょう。

  • 機能別コスト(チャット/RAG/エージェント/要約 …)
  • ユーザー別コスト(誰が・どれだけ叩いているか)
  • モデル別コスト(Opus 何%、Sonnet 何%…)
  • キャッシュヒット率(節約できているか)
コストが見えないと、節約のしようがない。LLMOpsを謳うのに「コストダッシュボードがない」案件は、運用に乗ったあと必ず破綻します。

SLAと予算のバランス

最後に。コスト最適化はSLA(応答時間・精度)とのトレードオフです。「とにかく安く」ではなく、業務要件に合った最適点を探す設計が必要です。

例えば、CS自動応答なら「3秒以内に出ること」が体感品質に直結するので、レイテンシ重視でモデル選定。法務レビューなら「精度第一」でコストは度外視。利用シーン×SLAでモデルを使い分けるのが、本当に効くコスト設計です。

MU AI事業部のLLMOps運用代行プランでは、上記のコスト設計を実装段階から組み込み、運用後も月次レポートで効果を可視化します。

OK

岡田 / バックエンド・LLMOps

BACKEND · LLMOps

大規模SaaSのバックエンド開発を経て、LLMOps・コスト最適化・運用基盤を担当。「動かす後の話」を専門領域に。

LLMOps運用代行のご相談

本番稼働後の評価モニタ・モデル切替・コスト最適化を月額で代行。情シスの負荷ゼロで安定運用できる体制をつくります。

LLMOpsを相談
LLMOpsを相談 →