EvalLM: Interactive Evaluation of Large Language Model Prompts on User-Defined Criteria

要約

プロンプトを作成するだけで、開発者は大規模言語モデル (LLM) を使用して新しい生成アプリケーションのプロトタイプを作成できます。
ただし、プロトタイプを改良して製品にするには、開発者は出力を評価して弱点を診断し、プロンプトを繰り返し修正する必要があります。
形成的インタビュー (N=8) では、開発者がコンテキスト固有の主観的な基準を評価する際に、出力を手動で評価することに多大な労力を費やしていることが明らかになりました。
ユーザー定義の基準に基づいて複数の出力を評価することで、プロンプトを反復的に調整するための対話型システムである EvalLM を紹介します。
自然言語で基準を記述することにより、ユーザーはシステムの LLM ベースの評価機能を使用して、プロンプトの優れている点と失敗点の概要を把握し、評価者のフィードバックに基づいて改善することができます。
比較研究 (N=12) では、手動評価と比較した場合、EvalLM は参加者がより多様な基準を作成し、2 倍の出力を検査し、59% 少ない修正で満足のいくプロンプトに到達するのに役立っていることが示されました。
プロンプトを超えて、私たちの作業は、特定のアプリケーションのコンテキストでのモデルの評価と調整を強化するために拡張できます。

要約(オリジナル)

By simply composing prompts, developers can prototype novel generative applications with Large Language Models (LLMs). To refine prototypes into products, however, developers must iteratively revise prompts by evaluating outputs to diagnose weaknesses. Formative interviews (N=8) revealed that developers invest significant effort in manually evaluating outputs as they assess context-specific and subjective criteria. We present EvalLM, an interactive system for iteratively refining prompts by evaluating multiple outputs on user-defined criteria. By describing criteria in natural language, users can employ the system’s LLM-based evaluator to get an overview of where prompts excel or fail, and improve these based on the evaluator’s feedback. A comparative study (N=12) showed that EvalLM, when compared to manual evaluation, helped participants compose more diverse criteria, examine twice as many outputs, and reach satisfactory prompts with 59% fewer revisions. Beyond prompts, our work can be extended to augment model evaluation and alignment in specific application contexts.

arxiv情報

著者 Tae Soo Kim,Yoonjoo Lee,Jamin Shin,Young-Ho Kim,Juho Kim
発行日 2024-02-27 17:10:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク