Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences

要約

人間による評価の煩雑な性質とコードベースの評価の限界のため、人間による LLM 出力の評価を支援するために LLM が使用されることが増えています。
しかし、LLM によって生成された評価者は、評価する LLM の問題をすべて引き継ぐだけであり、人間によるさらなる検証が必要です。
私たちは、LLM が生成した評価関数 (プロンプトであれコードであれ) を人間の要件に合わせて「バリデーターを検証する」ための混合主導型アプローチを提案します。
私たちのインターフェースである EvalGen は、評価基準の生成とアサーションの実装においてユーザーに自動化された支援を提供します。
候補実装 (Python 関数、LLM グレーダー プロンプト) を生成する際、EvalGen は人間に LLM 出力のサブセットをグレーディングするように依頼します。
このフィードバックは、ユーザーの成績に合わせてより適切に調整される実装を選択するために使用されます。
定性的調査では、EvalGen が全体的にサポートされていることがわかりましたが、主観性と調整の反復プロセスが強調されています。
特に、\emph{基準ドリフト} と呼ばれる現象を特定します。つまり、ユーザーは出力を採点するための基準が必要ですが、出力を採点することはユーザーが基準を定義するのに役立ちます。
さらに、一部の基準は (\emph{先験的に) 定義できる独立した基準ではなく、観察された特定の LLM 出力に \emph{依存} しているように見え、モデルの観察から評価が独立していることを前提とするアプローチに深刻な疑問を引き起こしています。
出力。
インターフェイスと実装の詳細、アルゴリズムとベースライン アプローチの比較、将来の LLM 評価アシスタントの設計への影響を示します。

要約(オリジナル)

Due to the cumbersome nature of human evaluation and limitations of code-based evaluation, Large Language Models (LLMs) are increasingly being used to assist humans in evaluating LLM outputs. Yet LLM-generated evaluators simply inherit all the problems of the LLMs they evaluate, requiring further human validation. We present a mixed-initiative approach to “validate the validators” — aligning LLM-generated evaluation functions (be it prompts or code) with human requirements. Our interface, EvalGen, provides automated assistance to users in generating evaluation criteria and implementing assertions. While generating candidate implementations (Python functions, LLM grader prompts), EvalGen asks humans to grade a subset of LLM outputs; this feedback is used to select implementations that better align with user grades. A qualitative study finds overall support for EvalGen but underscores the subjectivity and iterative process of alignment. In particular, we identify a phenomenon we dub \emph{criteria drift}: users need criteria to grade outputs, but grading outputs helps users define criteria. What is more, some criteria appears \emph{dependent} on the specific LLM outputs observed (rather than independent criteria that can be defined \emph{a priori}), raising serious questions for approaches that assume the independence of evaluation from observation of model outputs. We present our interface and implementation details, a comparison of our algorithm with a baseline approach, and implications for the design of future LLM evaluation assistants.

arxiv情報

著者 Shreya Shankar,J. D. Zamfirescu-Pereira,Björn Hartmann,Aditya G. Parameswaran,Ian Arawjo
発行日 2024-04-18 15:45:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC パーマリンク