要約
大規模言語モデル (LLM) による自動評価は、今日の注目すべきトピックです。
ただし、判断や評価のタスクは主観的なものが多く、さまざまな要因の影響を受けるため、適応が困難になります。
多くの研究では、人間の評価者と比較した最先端の独自の LLM の機能が実証されていますが、個別の判断を達成するための要件である、時間の経過とともに参照評価者に適応するのに苦労することがよくあります。
さらに、多くの研究がオープン LLM を審査員または評価者として適用しようと試みていますが、これらの取り組みでは、希少なデータを扱う際の限界が見落とされていることがよくあります。
個人的な判断は本質的に限られたデータ シナリオに関連付けられており、これは現実世界の多くの問題で一般的です。
私たちの研究は、オープン LLM を人間の好みに合わせるために、限られたデータからより効果的なサンプルを選択するデータ拡張手法を提示することを目的としています。
私たちの研究では、参照裁判官とのピアソン相関がベースラインと比較して約 7% 向上し、数学的推論評価タスクにおいてベース モデル (Llama3.1-8B-Instruct) と比較して 30% の向上が達成されました。
より効果的な嗜好データの選択を強化することで、私たちのアプローチがベースラインの方法を超えることができることを示しています。
要約(オリジナル)
Automatic evaluation by large language models (LLMs) is a prominent topic today; however, judgment and evaluation tasks are often subjective and influenced by various factors, making adaptation challenging. While many studies demonstrate the capabilities of state-of-the-art proprietary LLMs in comparison to human evaluators, they often struggle to adapt to reference evaluators over time, a requirement for achieving personalized judgment. Additionally, numerous works have attempted to apply open LLMs as judges or evaluators, but these efforts frequently overlook the limitations of working with scarce data. Personalized judgment is inherently associated with limited data scenarios, which are common in many real-world problems. Our work aims to present a data augmentation technique to select a more effective sample from limited data in order to align an open LLM with human preference. Our work achieves approximately 7% improvements in Pearson correlation with a reference judge over the baseline,and 30% improvement over the base model (Llama3.1-8B-Instruct) in the mathematical reasoning evaluation task. demonstrating that augmenting selecting more effective preference data enables our approach to surpass baseline methods.
arxiv情報
著者 | Javad Seraj,Mohammad Mahdi Mohajeri,Mohammad Javad Dousti,Majid Nili Ahmadabadi |
発行日 | 2024-12-10 11:40:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google