要約
LLM は日々進化するため、堅牢な評価結果をタイムリーに提供できる、信頼できる評価方法が緊急に必要とされています。
現在、静的ベンチマークは汚染の懸念が生じやすいため、ユーザーは Chatbot Arena などの人間による投票プラットフォームを信頼する傾向があります。
ただし、人間によるアノテーションには多大な手作業が必要です。
自動で堅牢かつ信頼できる評価フレームワークを提供するために、LLM エージェントを使用して評価プロセス全体を自動化する LLM の Auto-Arena を革新的に提案します。
まず、試験官 LLM がクエリを考案します。
次に、LLM 候補のペアがクエリをめぐって複数ラウンドのピアバトルを繰り広げます。その間に、LLM の真のパフォーマンス ギャップが明らかになります。
最後に、LLM 審査員の委員会が集合的に議論して勝者を決定します。これにより、偏見が軽減され、公平性が促進されます。
17 の最新 LLM に関する広範な実験では、Auto-Arena が人間の好みと最も高い相関関係を示しており、人間による評価プラットフォームに代わる有望な代替手段を提供しています。
要約(オリジナル)
As LLMs evolve on a daily basis, there is an urgent need for a trustworthy evaluation method that can provide robust evaluation results in a timely fashion. Currently, as static benchmarks are prone to contamination concerns, users tend to trust human voting platforms, such as Chatbot Arena. However, human annotations require extensive manual efforts. To provide an automatic, robust, and trustworthy evaluation framework, we innovatively propose the Auto-Arena of LLMs, which automates the entire evaluation process with LLM agents. Firstly, an examiner LLM devises queries. Then, a pair of candidate LLMs engage in a multi-round peer-battle around the query, during which the LLM’s true performance gaps become visible. Finally, a committee of LLM judges collectively discuss and determine the winner, which alleviates bias and promotes fairness. In our extensive experiment on the 17 newest LLMs, Auto-Arena shows the highest correlation with human preferences, providing a promising alternative to human evaluation platforms.
arxiv情報
著者 | Ruochen Zhao,Wenxuan Zhang,Yew Ken Chia,Deli Zhao,Lidong Bing |
発行日 | 2024-06-12 15:53:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google