要約
言語モデルが重要なワークフローに不可欠になるにつれて、その動作を評価することは根本的な課題のままです。人間による評価はコストがかかり、ノイズが多い一方で、自動化されたメトリクスは粗くて解釈が難しい信号しか提供しません。
応答品質を明示的でテスト可能な基準に分解するパラダイムである自然言語単体テストと、好み、直接評価、および自然言語の根拠にわたる多目的トレーニングを組み合わせた統一スコアリング モデル LMUnit を導入します。
私たちは、人間を対象とした研究を通じて、このパラダイムがアノテーター間の合意を大幅に改善し、より効果的な LLM 開発ワークフローを可能にすることを示しました。
LMUnit は、評価ベンチマーク (FLASK、BigGenBench) で最先端のパフォーマンスを達成し、RewardBench で競争力のある結果を達成します。
これらの結果は、私たちが提案したパラダイムとスコアリングモデルの両方を検証し、言語モデルの評価と開発の有望な道筋を示唆しています。
要約(オリジナル)
As language models become integral to critical workflows, assessing their behavior remains a fundamental challenge — human evaluation is costly and noisy, while automated metrics provide only coarse, difficult-to-interpret signals. We introduce natural language unit tests, a paradigm that decomposes response quality into explicit, testable criteria, along with a unified scoring model, LMUnit, which combines multi-objective training across preferences, direct ratings, and natural language rationales. Through controlled human studies, we show this paradigm significantly improves inter-annotator agreement and enables more effective LLM development workflows. LMUnit achieves state-of-the-art performance on evaluation benchmarks (FLASK, BigGenBench) and competitive results on RewardBench. These results validate both our proposed paradigm and scoring model, suggesting a promising path forward for language model evaluation and development.
arxiv情報
著者 | Jon Saad-Falcon,Rajan Vivek,William Berrios,Nandita Shankar Naik,Matija Franklin,Bertie Vidgen,Amanpreet Singh,Douwe Kiela,Shikib Mehri |
発行日 | 2024-12-17 17:01:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google