要約
大規模言語モデル (LLM) は、優れた問題解決能力と基本的な数学能力を実証しています。
ただし、その有効性はプロンプトの作成に大きく依存します。
この研究では、プロンプトのシステム メッセージに「ポジティブ思考」を組み込むことの影響を定量化し、それを体系的なプロンプト最適化と比較することを目的としています。
GSM8K データセット上で 70 億から 700 億の範囲のパラメータを持つ 3 つのモデルにわたって、思考連鎖プロンプトの有無にかかわらずテストされた、システム メッセージ スニペットの 60 の組み合わせのパフォーマンスを評価しました。
私たちの調査結果は、結果がモデル間で普遍的に一般化されていないことを明らかにしています。
ほとんどの場合、「ポジティブ思考」を組み込むと、モデルのパフォーマンスにプラスの影響が生じます。
ただし、注目すべきことに、最適なシステム メッセージがまったくないことが判明したため、Llama2-70B は Chain of Thought を利用していない場合に例外を示しました。
大規模なブラック ボックス モデルのプロンプトを手動で調整する実験の組み合わせの複雑さ、およびそれに伴う計算時間を考慮して、次に、最良の「ポジティブ思考」プロンプトのパフォーマンスを、体系的なプロンプト最適化の出力と比較しました。
小規模なオープンソース モデルを使用する場合でも、自動プロンプト オプティマイザーの採用がパフォーマンスを向上させる最も効果的な方法として浮上することを示します。
さらに、私たちの調査結果では、最もスコアの高い、自動的に最適化されたプロンプトが、予想をはるかに超える特殊性を示していることが明らかになりました。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable problem-solving and basic mathematics abilities. However, their efficacy is highly contingent on the formulation of the prompt. This study endeavors to quantify the influence of incorporating ‘positive thinking’ into the system message of the prompt, then compare that to systematic prompt optimization. We assess the performance of 60 combinations of system message snippets, tested with and without Chain of Thought prompting, across three models with parameters ranging from 7 to 70 billion on the GSM8K dataset. Our findings reveal that results do not universally generalize across models. In most instances, the inclusion of ‘positive thinking’ prompts positively affected model performance. Notably, however, Llama2-70B exhibited an exception when not utilizing Chain of Thought, as the optimal system message was found to be none at all. Given the combinatorial complexity, and thus computation time, of experimenting with hand-tuning prompts for large black-box models, we then compared the performance of the best ‘positive thinking’ prompt against the output of systematic prompt optimization. We show that employing an automated prompt optimizer emerges as the most effective method for enhancing performance, even when working with smaller open-source models. Additionally, our findings reveal that the highest-scoring, automatically-optimized prompt exhibits a degree of peculiarity far beyond expectations.
arxiv情報
著者 | Rick Battle,Teja Gollapudi |
発行日 | 2024-02-20 15:03:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google