From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks

要約

人間による注釈の必要性を減らすために、他の候補モデルの品質を判断するための大規模言語モデル (LLM) が提案されています。
LLM 審査員は通常、要約や機械翻訳などの生成タスクに関する人間の判断との相関を測定することによって評価されます。
対照的に、私たちは数学的推論タスクに関する LLM 裁判官を研究します。
これらのタスクには複数段階の推論が必要であり、解決策の正しさが検証可能であるため、より客観的な評価が可能になります。
私たちは詳細なパフォーマンス分析を実行し、使用されているジャッジのほとんどがタスクのパフォーマンスを向上させることができていないものの、より良いモデルを選択することはできていることがわかりました。
私たちの分析により、判断のパフォーマンスと候補モデルのタスクのパフォーマンスの間に強い相関関係があることが明らかになりました。
たとえ答えが間違っていたとしても、審査員はより品質の高いモデルを選択する傾向があることがわかりました。
さらに、個々のモデルのタスクパフォ​​ーマンスなどの統計を使用して、判断パフォーマンスを予測できることを示します。
アブレーションでは、回答候補を交換またはマスクし、裁判官が元の判決を保持していることが多いことを観察し、裁判官が判決に文体を組み込んでいるという証拠を提供します。
要約すると、判断の規則性は統計的尺度を使用して定量化できることがわかり、それらを利用するためのさまざまな角度が提供されます。

要約(オリジナル)

To reduce the need for human annotations, large language models (LLMs) have been proposed as judges of the quality of other candidate models. LLM judges are typically evaluated by measuring the correlation with human judgments on generation tasks such as summarization or machine translation. In contrast, we study LLM judges on mathematical reasoning tasks. These tasks require multi-step reasoning, and the correctness of their solutions is verifiable, enabling a more objective evaluation. We perform a detailed performance analysis and find that the used judges are mostly unable to improve task performance but are able to pick the better model. Our analysis uncovers a strong correlation between judgment performance and the candidate model task performance. We observe that judges tend to choose the model of higher quality even if its answer is incorrect. Further, we show that it is possible to use statistics, such as the task performances of the individual models, to predict judgment performance. In an ablation, we either swap or mask the candidate answers and observe that judges often keep the original judgment, providing evidence that judges incorporate writing style in their judgments. In summary, we find that regularities in the judgments are quantifiable using statistical measures and provide various angles on exploiting them.

arxiv情報

著者 Andreas Stephan,Dawei Zhu,Matthias Aßenmacher,Xiaoyu Shen,Benjamin Roth
発行日 2024-09-06 10:09:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク