AI Agentの評価フレームワーク
なぜ評価が必要なのか
「AIを入れたら賢くなった気がする」だけでは、投資判断も改善方針も立てられません。AI Agentの性能を定量的に評価する仕組みが不可欠です。
評価の3つの柱
1. タスク性能
- タスク成功率: 与えられたタスクを正しく完了した割合
- 部分成功率: 正確ではないが有用な結果を返した割合
- ステップ効率: タスク完了までのステップ数(少ないほど良い)
2. 応答品質
- 正確性(Accuracy): 回答の事実的な正しさ
- 忠実性(Faithfulness): 参照データに対する忠実度
- 有用性(Helpfulness): ユーザーの意図に対する的確さ
- 安全性(Safety): 有害な内容を含まないか
3. 運用指標
- レスポンスタイム: 応答までの時間(P50, P95, P99)
- コスト/タスク: 1タスクあたりのAPI費用
- 可用性: システムの稼働率
- スループット: 単位時間あたりの処理能力
評価手法
自動評価
LLM自体を評価者として使う「LLM-as-Judge」手法。
人間評価
専門家によるサンプリング評価。品質の最終判