A Better LLM Evaluator for Text Generation: The Impact of Prompt Output Sequencing and Optimization

要約

この研究では、大規模言語モデル (LLM) を使用して生成されたテキストを評価する迅速な設計を調査します。
LLM はさまざまな入力のスコアリングに使用されることが増えていますが、テキスト生成の評価におけるモデルの感度と主観性のため、自由形式のテキスト評価のための効果的なプロンプトを作成することは依然として困難です。
私たちの研究では、出力命令の順序を変更し、説明的な理由を含めて、さまざまなプロンプト構造を実験しました。
理由とスコアを提示する順序が LLM のスコアに大きく影響し、プロンプトでのルール理解のレベルが異なることがわかりました。
十分なデータが利用可能な場合、追加の最適化によりスコアの調整が強化される可能性があります。
この洞察は、LLM ベースの評価の精度と一貫性を向上させるために非常に重要です。

要約(オリジナル)

This research investigates prompt designs of evaluating generated texts using large language models (LLMs). While LLMs are increasingly used for scoring various inputs, creating effective prompts for open-ended text evaluation remains challenging due to model sensitivity and subjectivity in evaluation of text generation. Our study experimented with different prompt structures, altering the sequence of output instructions and including explanatory reasons. We found that the order of presenting reasons and scores significantly influences LLMs’ scoring, with a different level of rule understanding in the prompt. An additional optimization may enhance scoring alignment if sufficient data is available. This insight is crucial for improving the accuracy and consistency of LLM-based evaluations.

arxiv情報

著者 KuanChao Chu,Yi-Pei Chen,Hideki Nakayama
発行日 2024-06-14 12:31:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク