概要
LINEヤフーは、社内業務効率化のためにRAG搭載AIアシスタント「SeekAI」を全従業員に展開しました。
RAGデータの準備
対象データソース
- 社内Wikiドキュメント
- 社内Q&Aデータベース
- コーディングナレッジベース
- 顧客コミュニケーション履歴
データパイプライン
- データ収集: 各システムのAPIからドキュメントを自動取得
- クリーニング: HTML除去、重複排除、古いドキュメントのフィルタリング
- チャンキング: ドキュメント構造を考慮したセクション単位分割
- メタデータ付与: 部署、更新日、信頼度スコアをタグ付け
- ベクトル化: OpenAI Embedding APIでベクトル化
- インデックス: ベクトルDBに格納
自動品質評価パイプライン
特筆すべきは、検索ロジックを変更するたびに手動でテストし直す必要がないよう、自動RAG品質評価パイプラインを構築した点です。
# LINEヤフーの品質評価パイプライン概念コード
from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_precision
# テストデータセット(実際の社員の質問と期待回答のペア)
test_dataset = load_test_cases("seekai_golden_set.json")
# RAGパイプラインの出力を評価
results = evaluate(
dataset=test_dataset,
metrics=[faithfulness, answer_relevancy, context_precision],
)
print(f"Faithfulness: {results['faithfulness']:.2f}")
print(f"Answer Relevancy: {results['answer_relevancy']:.2f}")
成果
- パイロットテストで98%の回答精度を達成
- 年間80万時間の業務削減を目標に展開中