Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators

要約

LLMベースの自動アノテーターは、人間ベースの評価と比較して、費用対効果とスケーラビリティにより、LLM開発プロセスの重要な要素になりました。
ただし、これらの自動アノテーターは、除去が難しいバイアスを導入できます。
既存の自動評価メトリックには、より長い出力の優先権などの単純で既知の交絡因子でさえもあります。
自動評価のバイアスを制御するための簡単な回帰分析アプローチを提案します。
実際のケーススタディとして、LLMSを使用して応答品質を推定する命令チューニングLLMの高速で手頃なベンチマークであるAlpacaevalの長さバイアスを減らすことに焦点を当てています。
人間の好みと非常に相関しているにもかかわらず、アルパカエバルは、より長い出力を生成するモデルを支持することが知られています。
反事実的な質問に答えることを目的とした長さ制御されたアルパカエバルを紹介します。「モデルとベースラインの出力が同じ長さだった場合、好みはどうなりますか?」
これを達成するために、まず一般化された線形モデルを適合させて、(長さの差)およびその他の関連する機能を制御したいメディエーターに基づいて、バイアスされた自動アノテーターの好みを予測します。
次に、長さの差がゼロでGLMを調整しながら設定を予測することにより、長さ制御された好みを取得します。
長さ制御は、モデルの冗長性の操作に対するメトリックの堅牢性を改善するだけでなく、LMSYSチャットボットアリーナと0.94から0.98にスピアマン相関を増加させることもわかります。

要約(オリジナル)

LLM-based auto-annotators have become a key component of the LLM development process due to their cost-effectiveness and scalability compared to human-based evaluation. However, these auto-annotators can introduce biases that are hard to remove. Even simple, known confounders such as preference for longer outputs remain in existing automated evaluation metrics. We propose a simple regression analysis approach for controlling biases in auto-evaluations. As a real case study, we focus on reducing the length bias of AlpacaEval, a fast and affordable benchmark for instruction-tuned LLMs that uses LLMs to estimate response quality. Despite being highly correlated with human preferences, AlpacaEval is known to favor models that generate longer outputs. We introduce a length-controlled AlpacaEval that aims to answer the counterfactual question: ‘What would the preference be if the model’s and baseline’s output had the same length?’ To achieve this, we first fit a generalized linear model to predict the biased auto-annotator’s preferences based on the mediators we want to control for (length difference) and other relevant features. We then obtain length-controlled preferences by predicting preferences while conditioning the GLM with a zero difference in lengths. Length-controlling not only improves the robustness of the metric to manipulations in model verbosity, but we also find that it increases the Spearman correlation with LMSYS Chatbot Arena from 0.94 to 0.98.

arxiv情報

著者 Yann Dubois,Balázs Galambosi,Percy Liang,Tatsunori B. Hashimoto
発行日 2025-03-10 09:27:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク