Finetuning LLMs for Comparative Assessment Tasks

要約

自然言語生成における自動評価は困難な作業です。
命令調整された大規模言語モデル (LLM) は、特に比較評価を通じて、リファレンスフリーの評価において有望であることが示されています。
ただし、ペアごとの比較の二次計算の複雑さにより、そのスケーラビリティが制限されます。
これに対処するために、ゼロショット LLM 確率に比較戦略を適用することにより、効率的な比較評価が検討されてきました。
モデルの出力を比較確率の目標分布に合わせるために、比較評価のために LLM を微調整するためのフレームワークを提案します。
ソフト確率に基づいてトレーニングすることにより、私たちのアプローチは、比較の効率的なサブセットで高いパフォーマンスを維持しながら、最先端のパフォーマンスを向上させます。

要約(オリジナル)

Automated assessment in natural language generation is a challenging task. Instruction-tuned large language models (LLMs) have shown promise in reference-free evaluation, particularly through comparative assessment. However, the quadratic computational complexity of pairwise comparisons limits its scalability. To address this, efficient comparative assessment has been explored by applying comparative strategies on zero-shot LLM probabilities. We propose a framework for finetuning LLMs for comparative assessment to align the model’s output with the target distribution of comparative probabilities. By training on soft probabilities, our approach improves state-of-the-art performance while maintaining high performance with an efficient subset of comparisons.

arxiv情報

著者 Vatsal Raina,Adian Liusie,Mark Gales
発行日 2024-09-24 11:21:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク