AI評価の新しい可能性:LLM-as-a-Judgeを検証してみた

1.はじめに

本記事では、LLM-as-a-Judge(AIによる要約評価手法)を紹介し、検証結果を共有します。
対象読者:AI活用や自然言語処理、要約評価に関心のある方

2.背景・目的:LLMによる要約評価の課題と改善の可能性

私の業務では、AI技術を活用して社内外のビジネス課題を解決しています。特にニーズが高いのが LLMによる文章要約で、要約業務の効率化や要約データ活用へのニーズが増えています。
しかし、従来の評価手法(BLEUやROUGE)は単語一致ベースで、人間の評価と乖離が大きく、結局は人手評価が主体でした。複数人で評価する場合、主観によるばらつきが避けられません。
そこで、LLMに評価を委ねる「LLM-as-a-Judge」に注目し、人に近い評価ができるか検証しました。

3.評価手法の解説:BLEU/ROUGEとLLM-as-a-Judgeの違い

従来の評価手法BLEU/ROUGEの限界と、より人間に近い判断を目指すLLM-as-a-Judgeの特徴を解説します。

BLEU/ROUGE(単語一致ベース)

参照文とどれだけ似ているかをチェックする、シンプルな評価方法です。

  • 単語やフレーズの一致率を数値化
  • メリット:定量評価が可能
  • デメリット:
    • 言い換えを正しく評価できない
    • 文脈や自然さを無視
    • 参照文が必須
LLM-as-a-Judge(意味理解ベース)

AIが文章の文脈・論理・自然さを判断し、参照文なしで評価できる新手法です。

  • LLMが文章の意味・文脈・自然さを総合判断
  • メリット:
    • 「自然さ」「論理性」など複数観点で評価
    • 人間の評価に近い傾向を示す可能性がある
    • 参照文不要で創作やQAにも対応
  • デメリット:
    • 評価基準の不透明性(評価の説明ができない場合が多い)
    • モデル選定やプロンプト設計によって精度が変動
    • 高性能LLMを使用する場合はコストがかかる

4.検証の概要:LLMモデルと要約評価の実験条件

コールセンターの会話データを用いて、以下の条件でLLM-as-a-Judgeの評価精度を検証します。

  • 元データ:コールセンター会話のダミーデータ
  • 評価対象:元データをLLMで要約したデータ5件(誤りのある要約5件)
  • 評価LLM:オンプレミス対応OSSモデル(gpt-oss-120b/20b)

5.評価算定方法:LLM-as-a-Judgeによるスコアリング手法

論文に基づく指標で、AIが要約の誤りと重大度を判定し、減点方式で品質を評価します。

評価指標

LLM-as-a-Judge関連論文*1を参考に、以下の指標を設定します。

  • Issue Type(誤り種別) 
  • Syntactic Label(文法的ラベル)
  • Severity(重大度) 

[補足事項]
・ 誤り種別の具体的な項目と重大度の重みづけ点数は論文で明記されていないため、本検証で独自に設定
・ 文法的ラベルは論文に記載されている指標で設定

評価スコア

評価スコアは、論文に記載されている次の算出式により、100点を基準に減点方式で計算します。

  • スコアの算出式

    スコア = (1 - (減点合計 ÷ 単語数)) × 100

[補足事項]
・ スコアは 0~100 点の範囲で評価し、負の値は 0 点として扱います。
・ 要約の長さによる影響を調整するため、減点合計を単語数で割って正規化しています。
・ 減点合計が非常に大きく、減点合計 ÷ 単語数 が 1 を超える場合、スコアは負となり 0 点で算出されます。この場合、全スコアの正規化には該当しません。

  • スコア算出の例

    • CRITICAL(致命的)数:3件 MAJOR(重要)数:1件 MINOR(軽微)数:0件 単語数:70
    • 減点合計:
      CRITICAL:3 × 10点 = 30点 MAJOR:1 × 5点 = 5点 MINOR:0 × 1点 = 0点
      合計:35点
    • スコア:(1 - 35÷70)× 100 =50点

6.検証結果と考察:AI評価の精度比較

gpt-oss-120bとgpt-oss-20bを用いて検証を行い、誤りのある要約の評価結果を比較しました。

評価の平均スコア

gpt-oss-120bとgpt-oss-20bの平均スコアを比較した結果、gpt-oss-120bは人間の評価に近い傾向を示しましたが、gpt-oss-20bは要約の誤りを検出できませんでした。

LLM-as-a-Judgeで評価した平均スコア
※100点より低い(誤りを判別して減点している)ほど人の判断に近い

LLM 誤りありの要約
gpt-oss-120b 68点
gpt-oss-20b 100点
  • gpt-oss-120b人間の評価と近い傾向があり、68点評価
  • gpt-oss-20b:誤りを検出できず、100点評価

以降は、誤りのある要約を適切に減点できた gpt-oss-120b の評価結果の例を紹介します。

人の目とLLM-as-a-Judgeの評価結果比較

誤りのある要約の判定結果は以下のとおりです。すべての要約で誤りが指摘され、そのうち3件は人の目で見た誤りと一致しました。総合的には、概ね人の目に近い評価結果となっています。

誤りのある要約5件
No 人の目で見た誤り判定 LLM-as-a-Judgeの誤り判定(抜粋) LLM-as-a-Judgeと人の目の判定比較
1 回答に欠損があるため
・画像の条件
原文では「画像は文字や顔写真がはっきりと確認できること」が条件と明示されているが、要約ではこの条件が省略されている。 LLM-as-a-Judgeは、人の目と同じ観点を指摘
2 事実と異なる内容が含まれる
・電話の利便性を再確認
オペレーターが電話の利便性を再確認したという記述は元の文に存在せず、事実と異なる。 同上
3 回答に欠損があるため
・mailの設定確認
メールクライアントがGmailである旨が記載されておらず、重要情報が欠落している。 同上
4 回答に欠損があるため
・連絡手順
・返信時間の詳細
要約では「返信時間を説明した」だけで数値情報が欠落している。 LLM-as-a-Judgeは、人の目と同じ観点の一部を指摘
5 回答に欠損があるため
・郵送先
・通知方法
・公式サイト活用案内
【概要】書類送付先「▲▲サービスセンター解約係」の住所情報が欠落しており、手続きに必要な重要情報が欠落しているため。 同上
  • 誤りのある要約5件すべてで、LLM-as-a-Judgeも誤りを指摘。
  • 3件(No1、2、3)は、人の目の指摘事項と一致。
  • 残り2件(No4、5)は、人の目では複数の観点で指摘していたが、LLM-as-a-Judgeはその内の一部を指摘。

個別の評価結果

個別の評価結果の一つ(例:上記のNo2)を紹介します。No2-1では人間の評価と同じ指摘ができていますが、No2-2~2-4では、人間の評価では誤りとされなかった点をLLMが指摘しており、求める要約の粒度によっては、LLMへの追加指示などの対策が必要であることが分かりました。

LLM-as-a-Judgeの評価スコア:50点
* 要約文書
* 人の目で見た判定結果
* LLM-as-a-Judgeの評価結果

No Issue_type Syntactic_label Severity Applicable_parts Reason
2-1 Inaccuracy Intrinsic Predicate CRITICAL 【概要】…電話の利便性を再確認し… → 原文ではオペレーターが電話の利便性を再確認したという記述はなく、顧客が「電話が一番安心感がある」と述べただけであるため、内容が誤っている。 オペレーターが電話の利便性を再確認したという記述は元の文に存在せず、事実と異なる。
2-2 Omission Number&Time MAJOR 【概要】…混雑時間帯やチャット・メール対応を案内… → 原文では「平日の午前10時~11時、午後2時~4時」と具体的な時間帯が示されているが、要約で省略されている。 重要な具体的情報(混雑しない時間帯)が欠落している。
2-3 Omission Attribute MAJOR 【概要】…混雑時間帯やチャット・メール対応を案内… → 原文では「AIチャットは公式サイト・▲▲サービスの問い合わせページから利用でき、FAQ等に即時対応できる」ことが説明されているが、要約に記載がない。 代替手段としてのAIチャットの利用方法・範囲が欠落している。
2-4 Omission Number&Time MAJOR 【概要】…チャット・メール対応を案内… → 原文では「メールは▲▲サービスの問い合わせフォームから送信し、1~3営業日以内に返信される」旨が示されているが、要約に抜けている。 メール問い合わせの手順と返信期限が欠落している。
  • Inaccuracy Intrinsic(内的不正確性)が1件判定されており(No2-1)、人の目と同じ誤りを指摘。
  • Omission(省略)が3件判定されているが(No2-2~2-4)、詳細レベルの情報不足を指摘しており、求める要約の粒度によって判断が異なる指摘。

考察ポイント

検証の結果、LLM-as-a-Judgeによる評価は人に近い判断が可能であり、評価を数値化することで公平性の向上が期待できることが分かりました。さらに、要約の粒度を明示することで判定誤差を減らせるほか、使用するLLMモデルの選定によって精度をさらに改善できる可能性があります。

  • LLM-as-a-Judgeは人間に近い評価を示す傾向がある
    実務で導入する際には、評価観点を明確に定義し、基準を統一することで、より安定した評価が得られる可能性があります。  
  • 評価を数値化できるため、主観の排除により公平性の向上が期待される
    スコアリングをダッシュボード化(可視化)することで、改善ポイントを迅速に把握できる可能性があります。
  • 要約粒度の指定(プロンプトチューニング)で精度改善の余地あり
    プロンプトチューニングで「要約の対象情報」「省略可能な情報」を明示的に指示し、ユースケースごとにテンプレート化することで、Omission(省略)判定の不要な誤差を減らせる可能性があります。
  • LLMの違いが評価精度に大きく影響
    モデル選定時には、パラメータ数だけでなく、必要に応じて社内データで追加学習を行うことで、評価精度を改善できる可能性があります。

7.まとめ:LLM-as-a-Judgeで要約評価を効率化する未来

今回は、LLM-as-a-Judgeの検証結果をご紹介しました。LLM-as-a-Judgeは、人間の判断に近い結果を得られる可能性があり、要約評価の効率化と品質向上に有望な手法であることが示されました。今後は、プロンプトチューニングや高性能LLMの活用により、さらに精度を高め、文書評価業務全体の効率化を目指します。

執筆者

倉田裕紀(NTT西日本 技術革新部 AI技術担当)
AIエンジニアとして、社内外のAIプロジェクトを技術支援

商標

  • 「GPT」は、OpenAI OpCo, LLC の商標もしくは登録商標です。

*1:A Survey on LLM-as-a-Judge

© NTT WEST, Inc.