Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation

要約

大規模言語モデル (LLM) が進歩するにつれて、人による評価コストが高くなるため、その出力を確実に評価することがより困難になります。
より優れた LLM 自動評価者に向けて前進するために、基礎的な大規模自動評価者モデルのファミリーである FLAMe を導入します。
FLAMe は、500 万件を超える人間による判断を含む 100 を超える品質評価タスクの大規模で多様なコレクションに基づいてトレーニングされており、以前の研究で公開された人間による評価を使用して厳選および標準化されています。
FLAMe は、さまざまな保留タスクに対する一般化を大幅に改善し、多くのタスクで GPT-4 や Claude-3 などの独自データでトレーニングされた LLM を上回ります。
我々は、ケーススタディとして報酬モデリング評価を使用して、FLAMe がさらに下流の微調整のための強力な開始点としても機能することを示します (FLAMe-RM)。
特に、RewardBench では、FLAMe-RM-24B モデル (精度 87.8%) が、許容的にライセンスされたデータのみでトレーニングされた最高パフォーマンスの生成モデルであり、GPT-4-0125 (85.9%) と GPT-4o (
84.7%)。
さらに、新しいテールパッチ微調整戦略を使用して、報酬モデリング評価 (FLAMe-Opt-RM) 用の FLAMe マルチタスク混合を最適化し、必要なトレーニング データポイントを約 25 分の 1 にしながら、競争力のある RewardBench パフォーマンスを提供する、より計算効率の高いアプローチを模索します。
全体として、当社の FLAMe バリアントは、RewardBench や LLM-AggreFact を含む 53 の品質評価タスクを含む 12 の自動評価者評価ベンチマークのうち 8 つにおいて、当社が検討している一般的な独自の LLM-as-a-Judge モデルすべてを上回っています。
最後に、私たちの分析により、CoBBLEr 自動評価者バイアス ベンチマークにおいて、FLAMe はこれらの LLM-as-a-Judge モデルよりも大幅にバイアスが低く、コード生成のための高品質な応答を効果的に特定できることが明らかになりました。

要約(オリジナル)

As large language models (LLMs) advance, it becomes more challenging to reliably evaluate their output due to the high costs of human evaluation. To make progress towards better LLM autoraters, we introduce FLAMe, a family of Foundational Large Autorater Models. FLAMe is trained on our large and diverse collection of 100+ quality assessment tasks comprising 5M+ human judgments, curated and standardized using publicly released human evaluations from previous research. FLAMe significantly improves generalization to a wide variety of held-out tasks, outperforming LLMs trained on proprietary data like GPT-4 and Claude-3 on many tasks. We show that FLAMe can also serve as a powerful starting point for further downstream fine-tuning, using reward modeling evaluation as a case study (FLAMe-RM). Notably, on RewardBench, our FLAMe-RM-24B model (with an accuracy of 87.8%) is the top-performing generative model trained exclusively on permissively licensed data, outperforming both GPT-4-0125 (85.9%) and GPT-4o (84.7%). Additionally, we explore a more computationally efficient approach using a novel tail-patch fine-tuning strategy to optimize our FLAMe multitask mixture for reward modeling evaluation (FLAMe-Opt-RM), offering competitive RewardBench performance while requiring approximately 25x less training datapoints. Overall, our FLAMe variants outperform all popular proprietary LLM-as-a-Judge models we consider across 8 out of 12 autorater evaluation benchmarks, encompassing 53 quality assessment tasks, including RewardBench and LLM-AggreFact. Finally, our analysis reveals that FLAMe is significantly less biased than these LLM-as-a-Judge models on the CoBBLEr autorater bias benchmark, while effectively identifying high-quality responses for code generation.

arxiv情報

著者 Tu Vu,Kalpesh Krishna,Salaheddin Alzubi,Chris Tar,Manaal Faruqui,Yun-Hsuan Sung
発行日 2024-07-15 15:33:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク