Evolutionary Pre-Prompt Optimization for Mathematical Reasoning

要約

最近の進歩により、大規模言語モデル (LLM) は、タスク固有のサンプルの小さなセットが与えられると、顕著な習熟度、つまり複雑な推論タスクに拡張される能力を示すことが明らかになりました。
特に、少数ショット学習と思考連鎖 (CoT) アプローチの組み合わせは、より論理的に一貫した結論に向けてモデルを導く上で極めて重要です。
この論文では、効果的な CoT プレプロンプトを設計するためのサンプル選択の最適化について検討し、通常、進化的計算などの比較ベースの手法を優先して最適化アルゴリズムを選択すると、有効性と実現可能性が大幅に向上することを示します。
具体的には、進化的プリプロンプト最適化 (EPPO) は、限られたエクスプロイトと過剰適合の最適化のおかげで、GSM8k や MathQA などのベンチマーク データセットの完全一致スコアで 10 絶対ポイントを超える単純な少数ショット アプローチに比べて改善をもたらします。
これらの利益はさまざまなコンテキストにわたって一貫しており、自己一貫性 (SC) と統合するとさらに増幅されます。

要約(オリジナル)

Recent advancements have highlighted that large language models (LLMs), when given a small set of task-specific examples, demonstrate remarkable proficiency, a capability that extends to complex reasoning tasks. In particular, the combination of few-shot learning with the chain-of-thought (CoT) approach has been pivotal in steering models towards more logically consistent conclusions. This paper explores the optimization of example selection for designing effective CoT pre-prompts and shows that the choice of the optimization algorithm, typically in favor of comparison-based methods such as evolutionary computation, significantly enhances efficacy and feasibility. Specifically, thanks to a limited exploitative and overfitted optimization, Evolutionary Pre-Prompt Optimization (EPPO) brings an improvement over the naive few-shot approach exceeding 10 absolute points in exact match scores on benchmark datasets such as GSM8k and MathQA. These gains are consistent across various contexts and are further amplified when integrated with self-consistency (SC)

arxiv情報

著者 Mathurin Videau,Alessandro Leite,Marc Schoenauer,Olivier Teytaud
発行日 2024-12-05 16:12:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク