Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework

要約

大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、ますます広範囲に使用されるようになってきている。これまでの研究では、GPT-4のような強力なプロプライエタリモデルの評価説明や判断を再現するために、オープンソースのLLMを微調整することが試みられてきた。しかし、これらの方法は、事前に定義された一般的な基準の下でのテキストベースの分析に大きく制限されており、その結果、未知の命令に対する適応性が低下し、定量的および構造的な制約の順守を評価する際に不安定であることを示している。これらの限界に対処するため、我々は新しい評価フレームワークであるARJudgeを提案する。ARJudgeは、適応的に評価基準を策定し、LLM応答を評価するためにテキストベース解析とコード駆動解析の両方を合成する。ARJudgeは、多面的な評価分析を生成するファインチューニングされたAnalyzerと、最終的な判定を行うためにすべての分析を組み合わせ、洗練させるチューニング不要のRefinerの2つのコンポーネントから構成される。我々は、Analyzerを訓練するために、テキストベースとコード駆動の分析生成に加えて、評価基準生成のタスクを統合した複合分析コーパスを構築した。我々の結果は、ARJudgeが既存のファインチューニングされた評価器を、有効性と頑健性において凌駕することを示している。さらに、評価能力を向上させる上で、多面的な評価とコード駆動型分析が重要であることを示している。

要約(オリジナル)

Large Language Models (LLMs) are being used more and more extensively for automated evaluation in various scenarios. Previous studies have attempted to fine-tune open-source LLMs to replicate the evaluation explanations and judgments of powerful proprietary models, such as GPT-4. However, these methods are largely limited to text-based analyses under predefined general criteria, resulting in reduced adaptability for unseen instructions and demonstrating instability in evaluating adherence to quantitative and structural constraints. To address these limitations, we propose a novel evaluation framework, ARJudge, that adaptively formulates evaluation criteria and synthesizes both text-based and code-driven analyses to evaluate LLM responses. ARJudge consists of two components: a fine-tuned Analyzer that generates multi-faceted evaluation analyses and a tuning-free Refiner that combines and refines all analyses to make the final judgment. We construct a Composite Analysis Corpus that integrates tasks for evaluation criteria generation alongside text-based and code-driven analysis generation to train the Analyzer. Our results demonstrate that ARJudge outperforms existing fine-tuned evaluators in effectiveness and robustness. Furthermore, it demonstrates the importance of multi-faceted evaluation and code-driven analyses in enhancing evaluation capabilities.

arxiv情報

著者 Kaishuai Xu,Tiezheng Yu,Wenjun Hou,Yi Cheng,Liangyou Li,Xin Jiang,Lifeng Shang,Qun Liu,Wenjie Li
発行日 2025-03-03 07:13:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク