要約
構造化されたライティングタスクでの言語モデル出力の評価は、通常、人間の評価者または大規模な言語モデル(LLM)に提示される多くの望ましい基準で実施されます。
たとえば、「コーヒー摂取量と研究生産性に関するアカデミックトークの起草を手伝ってください」などのプロンプトで、モデルの反応は、精度や一貫性などの基準について評価される場合があります。
ただし、高品質の応答は、基本的なタスク要件を満たすだけではありません。
このクエリに対する効果的な応答には、魅力的なオープニング、明確な研究の質問、持ち帰りなど、学術講演の典型的な機能を含める必要があります。
これらの暗黙の基準を特定するために、微妙な微妙でタスク固有の基準を自動的に明らかにするように設計された新しいフレームワークであるEvalagentを紹介します。
評価剤ファーストマインズエキスパートを執筆したオンラインガイダンス。
次に、この証拠を使用して、信頼できる外部ソースに基づいた多様で長期の評価基準を提案します。
我々の実験は、評価剤によって生成された接地基準がしばしば暗黙的であることを示しています(ユーザーのプロンプトに直接記載されていません)、しかし具体的な(高度な語彙精度)。
さらに、評価基準は多くの場合、初期の応答によって満たされませんが、それらは実用的であるため、応答を洗練してそれらを満たすことができます。
最後に、LLM生成と評価剤の基準を組み合わせることで、LLMのみを使用するよりも多くの人間の価値基準が明らかになることを示します。
要約(オリジナル)
Evaluation of language model outputs on structured writing tasks is typically conducted with a number of desirable criteria presented to human evaluators or large language models (LLMs). For instance, on a prompt like ‘Help me draft an academic talk on coffee intake vs research productivity’, a model response may be evaluated for criteria like accuracy and coherence. However, high-quality responses should do more than just satisfy basic task requirements. An effective response to this query should include quintessential features of an academic talk, such as a compelling opening, clear research questions, and a takeaway. To help identify these implicit criteria, we introduce EvalAgent, a novel framework designed to automatically uncover nuanced and task-specific criteria. EvalAgent first mines expert-authored online guidance. It then uses this evidence to propose diverse, long-tail evaluation criteria that are grounded in reliable external sources. Our experiments demonstrate that the grounded criteria produced by EvalAgent are often implicit (not directly stated in the user’s prompt), yet specific (high degree of lexical precision). Further, EvalAgent criteria are often not satisfied by initial responses but they are actionable, such that responses can be refined to satisfy them. Finally, we show that combining LLM-generated and EvalAgent criteria uncovers more human-valued criteria than using LLMs alone.
arxiv情報
著者 | Manya Wadhwa,Zayne Sprague,Chaitanya Malaviya,Philippe Laban,Junyi Jessy Li,Greg Durrett |
発行日 | 2025-04-21 16:43:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google