要約
事前に訓練された大型言語モデル(LLMS)のパフォーマンスは、多くの場合、プロンプトテンプレートのニュアンスに敏感であり、慎重な迅速なエンジニアリングを必要とし、コンピューティングと人間の努力の観点からコストを追加します。
この研究では、さまざまなプロンプトでの好みを調べることを目的としたさまざまなサイズの複数のLLMSバリアントを含む実験を紹介します。
質問回答に関する実験を通じて、さまざまなサイズのLLM全体で迅速な優先順位の一貫性を示します。
また、この一貫性は、自然言語の推論などの他のタスクにまで及ぶことも示しています。
この一貫性を利用して、より小さなモデルを使用して、より大きなモデルに効果的なプロンプトテンプレートを選択する方法を提案します。
私たちの方法は、迅速なエンジニアリングのコストを大幅に削減しながら、パフォーマンスを候補者間の最適なプロンプトと一貫して一致させることを示しています。
さらに重要なことに、私たちの実験は、14のLLMSにわたる戦略の有効性と、幅広いNLPタスクへの適用性を示しており、その堅牢性を強調しています。
要約(オリジナル)
The performance of pre-trained Large Language Models (LLMs) is often sensitive to nuances in prompt templates, requiring careful prompt engineering, adding costs in terms of computing and human effort. In this study, we present experiments encompassing multiple LLMs variants of varying sizes aimed at probing their preference with different prompts. Through experiments on Question Answering, we show prompt preference consistency across LLMs of different sizes. We also show that this consistency extends to other tasks, such as Natural Language Inference. Utilizing this consistency, we propose a method to use a smaller model to select effective prompt templates for a larger model. We show that our method substantially reduces the cost of prompt engineering while consistently matching performance with optimal prompts among candidates. More importantly, our experiment shows the efficacy of our strategy across fourteen LLMs and its applicability to a broad range of NLP tasks, highlighting its robustness
arxiv情報
著者 | Liang Cheng,Tianyi LI,Zhaowei Wang,Mark Steedman |
発行日 | 2025-05-26 15:07:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google