要約
入力の長さが増加するにつれてパフォーマンスの劣化により、高度なLLM-A-A-Judgeメソッドであっても、長期のモデル生成テキストの品質を評価することは困難です。
この問題に対処するために、包括的な評価タスクを一連のローカライズされたスコアリングタスクに分解し、最終的なグローバル評価が続く分割統治アプローチを提案します。
この戦略により、より詳細で管理しやすい評価が可能になり、テキストの各セグメントが一貫性と品質の両方で単独で評価され、ピース全体の全体的な構造と一貫性を占めます。
さらに、人間の注釈を活用してローカルおよびグローバルな評価の両方のパフォーマンスを向上させるハイブリッド内コンテキスト学習アプローチを紹介します。
この方法により、人間が生成したフィードバックを評価プロセスに直接組み込むことにより、モデルが人間の判断とより適合することができます。
最後に、人間の注釈のためにデータサンプルを効率的に選択する不確実性ベースのアクティブ学習アルゴリズムを開発し、それにより実際のシナリオで注釈コストを削減します。
実験結果は、提案された評価フレームワークがいくつかの代表的なベースラインよりも優れていることを示しており、アプローチの有効性を強調しています。
要約(オリジナル)
Assessing the quality of long-form, model-generated text is challenging, even with advanced LLM-as-a-Judge methods, due to performance degradation as input length increases. To address this issue, we propose a divide-and-conquer approach, which breaks down the comprehensive evaluation task into a series of localized scoring tasks, followed by a final global assessment. This strategy allows for more granular and manageable evaluations, ensuring that each segment of the text is assessed in isolation for both coherence and quality, while also accounting for the overall structure and consistency of the entire piece. Moreover, we introduce a hybrid in-context learning approach that leverages human annotations to enhance the performance of both local and global evaluations. By incorporating human-generated feedback directly into the evaluation process, this method allows the model to better align with human judgment. Finally, we develop an uncertainty-based active learning algorithm that efficiently selects data samples for human annotation, thereby reducing annotation costs in practical scenarios. Experimental results show that the proposed evaluation framework outperforms several representative baselines, highlighting the effectiveness of our approach.
arxiv情報
著者 | Xiaorong Wang,Ting Yang,Zhu Zhang,Shuo Wang,Zihan Zhou,Liner Yang,Zhiyuan Liu,Maosong Sun |
発行日 | 2025-05-27 02:19:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google