要約
自然言語生成 (NLG) システムを評価するために大規模言語モデル (LLM) を使用する従来のパラダイムは、通常、2 つの重要な入力に依存しています: (1) 評価される NLG タスクの明確な定義、および (2) 事前定義されたタスクのリスト
評価基準。
このプロセスでは、LLM を「消極的な批評家」として扱い、人間が定義した評価基準に厳密に従います。
ただし、新しい NLG タスクが出現すると、テキストの品質を評価する基準が大きく変わる可能性があります。
その結果、これらの厳格な評価方法は、特定のタスクごとにカスタマイズされた大規模な即時エンジニアリングがなければ、多様な NLG タスクに適応するのに苦労します。
この制限に対処するために、LLM が「アクティブな批評家」として機能できるようにする、新しい LLM ベースの NLG 評価プロトコルである Active-Critic を導入します。特に、私たちのプロトコルは 2 つの重要な段階で構成されています。
最初の段階では、LLM はターゲット NLG タスクを推測し、データから関連する評価基準を確立するように指示されます。
この自己推論情報に基づいて、第 2 段階ではプロンプトを動的に最適化し、LLM をより人間に合わせたスコア決定に導くと同時に、その評価を正当化するための詳細な説明も生成します。
4 つの NLG 評価タスクにわたる実験では、私たちのアプローチが最先端の評価方法よりも人間の判断とのより強い一致を実現していることが示されています。
私たちの包括的な分析は、わずかな量のラベル付きデータによる Active-Critic の有効性と説明可能性をさらに強調しています。
コードとデータは GitHub で共有します。
要約(オリジナル)
The conventional paradigm of using large language models (LLMs) for evaluating natural language generation (NLG) systems typically relies on two key inputs: (1) a clear definition of the NLG task to be evaluated and (2) a list of pre-defined evaluation criteria. This process treats LLMs as ”passive critics,” strictly following human-defined criteria for evaluation. However, as new NLG tasks emerge, the criteria for assessing text quality can vary greatly. Consequently, these rigid evaluation methods struggle to adapt to diverse NLG tasks without extensive prompt engineering customized for each specific task. To address this limitation, we introduce Active-Critic, a novel LLM-based NLG evaluation protocol that enables LLMs to function as ”active critics.” Specifically, our protocol comprises two key stages. In the first stage, the LLM is instructed to infer the target NLG task and establish relevant evaluation criteria from the data. Building on this self-inferred information, the second stage dynamically optimizes the prompt to guide the LLM toward more human-aligned scoring decisions, while also generating detailed explanations to justify its evaluations. Experiments across four NLG evaluation tasks show that our approach achieves stronger alignment with human judgments than state-of-the-art evaluation methods. Our comprehensive analysis further highlights the effectiveness and explainability of Active-Critic with only a small amount of labeled data. We will share our code and data on GitHub.
arxiv情報
著者 | Shuying Xu,Junjie Hu,Ming Jiang |
発行日 | 2024-10-14 17:04:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google