要約
大規模言語モデル (LLM) は急速に進歩しているにもかかわらず、そのタスクのパフォーマンスは依然としてプロンプト設計の影響を受けやすいです。
最近の研究では、タスクの精度を最大化する最適なプロンプトを特定するためのオプティマイザーとして LLM 自体を活用することが検討されています。
ただし、プロンプトを評価する場合、このようなアプローチは、各候補プロンプトのタスクの精度を計算するために、とらえどころのない手動で注釈が付けられたゴールド ラベルに大きく依存しており、広範な実装と汎用性を妨げています。
この制限を克服するために、この研究では、金ラベルへの依存を軽減するための金ラベル非依存プロンプト評価 (GLaPE) を提案しています。
自己一貫性と解答の正確さとの間に観察された相関関係に基づいて、自己一貫性を初期評価スコアとして採用します。
その後、同一の回答を生成するプロンプトのスコアを相互に一貫性が保たれるように調整します。
実験結果は、GLaPE が、金ラベルが存在しない場合でも、正確で均一な信頼性の高い評価を提供することを示しています。
さらに、6 つの一般的な推論タスクでは、GLaPE ベースのプロンプト最適化により、精度ベースのプロンプトに匹敵する効果的なプロンプトが得られます。
コードは https://github.com/thunderous77/GLaPE で公開されています。
要約(オリジナル)
Despite the rapid progress of large language models (LLMs), their task performance remains sensitive to prompt design. Recent studies have explored leveraging the LLM itself as an optimizer to identify optimal prompts that maximize task accuracy. However, when evaluating prompts, such approaches heavily rely on elusive manually annotated gold labels to calculate task accuracy for each candidate prompt, which hinders the widespread implementation and generality. To overcome the limitation, this work proposes a gold label-agnostic prompt evaluation (GLaPE) to alleviate dependence on gold labels. Motivated by the observed correlation between self-consistency and the accuracy of the answer, we adopt self-consistency as the initial evaluation score. Subsequently, we refine the scores of prompts producing identical answers to be mutually consistent. Experimental results show that GLaPE provides reliable evaluations uniform with accuracy, even in the absence of gold labels. Moreover, on six popular reasoning tasks, our GLaPE-based prompt optimization yields effective prompts comparable to accuracy-based ones. The code is publicly available at https://github.com/thunderous77/GLaPE.
arxiv情報
著者 | Xuanchang Zhang,Zhuosheng Zhang,Hai Zhao |
発行日 | 2024-12-02 07:47:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google