Self-Taught Evaluators

要約

モデルベースの評価は、トレーニングの報酬モデルとして、また人間による評価の代替として、モデル開発を成功させるための核心です。
このような評価者をトレーニングするための標準的なアプローチは、モデルの応答に対する人間の好みの判断を大量に収集することですが、これにはコストがかかり、モデルが改善されるにつれてデータが古くなります。
この研究では、合成トレーニング データのみを使用し、人間による注釈を使用せずに評価者を改善することを目的としたアプローチを紹介します。
ラベルのない指示から開始して、反復的な自己改善スキームは対照的なモデル出力を生成し、推論トレースと最終判断を生成するために LLM-as-a-Judge をトレーニングし、改善された予測を使用して新しい反復ごとにこのトレーニングを繰り返します。
ラベル付きの選好データがなくても、独習評価ツールは、RewardBench で強力な LLM (Llama3-70B-Instruct) を 75.4 から 88.3 (多数決で 88.7) に改善できます。
これは、GPT-4 などの一般的に使用される LLM ジャッジを上回り、ラベル付きサンプルでトレーニングされた最高のパフォーマンスの報酬モデルのパフォーマンスと一致します。

要約(オリジナル)

Model-based evaluation is at the heart of successful model development — as a reward model for training, and as a replacement for human evaluation. To train such evaluators, the standard approach is to collect a large amount of human preference judgments over model responses, which is costly and the data becomes stale as models improve. In this work, we present an approach that aims to im-prove evaluators without human annotations, using synthetic training data only. Starting from unlabeled instructions, our iterative self-improvement scheme generates contrasting model outputs and trains an LLM-as-a-Judge to produce reasoning traces and final judgments, repeating this training at each new iteration using the improved predictions. Without any labeled preference data, our Self-Taught Evaluator can improve a strong LLM (Llama3-70B-Instruct) from 75.4 to 88.3 (88.7 with majority vote) on RewardBench. This outperforms commonly used LLM judges such as GPT-4 and matches the performance of the top-performing reward models trained with labeled examples.

arxiv情報

著者 Tianlu Wang,Ilia Kulikov,Olga Golovneva,Ping Yu,Weizhe Yuan,Jane Dwivedi-Yu,Richard Yuanzhe Pang,Maryam Fazel-Zarandi,Jason Weston,Xian Li
発行日 2024-08-05 17:57:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク