Latent Skill Discovery for Chain-of-Thought Reasoning

要約

思考連鎖 (CoT) プロンプトは、特に複雑な推論タスクに取り組む場合に、大規模言語モデル (LLM) に対する一般的なコンテキスト内学習 (ICL) アプローチです。
従来の ICL アプローチでは、入力された質問と同様の質問を含む例を使用してプロンプトを構築します。
ただし、CoT プロンプトでは、例の中に重要な中間推論ステップ (理論的根拠) が含まれるため、質問そのものではなく、これらの理論的根拠に基づいてサンプルを選択する必要があります。
既存の方法では、人間の専門家または事前トレーニングを受けた LLM が、選択をガイドするためのスキル、論理的根拠の高レベルの抽象化を説明する必要があります。
ただし、これらの方法は多くの場合コストが高く、拡張が困難です。
代わりに、この論文では、潜在推論スキル (LaRS) と呼ばれる新しいアプローチを紹介します。これは、推論スキルと呼ばれる潜在変数を使用して、教師なし学習を使用して理論的根拠の潜在空間表現を作成します。
同時に、LaRS は、特定の質問に対して必要な推論スキルを決定するための推論ポリシーを学習します。
次に、過去の例と質問の間の推論スキルを調整することにより、ICL の例が選択されます。
このアプローチは理論的に根拠があり、計算効率が高く、補助的な LLM 推論や手動のプロンプト設計が不要になります。
実証結果は、LaRS が常に SOTA スキルベースの選択方法よりも優れたパフォーマンスを示し、サンプル バンクを 4 倍高速に処理し、選択段階での LLM 推論を半分に削減し、次善のサンプル バンクに対する堅牢性を示していることを示しています。

要約(オリジナル)

Chain-of-thought (CoT) prompting is a popular in-context learning (ICL) approach for large language models (LLMs), especially when tackling complex reasoning tasks. Traditional ICL approaches construct prompts using examples that contain questions similar to the input question. However, CoT prompting, which includes crucial intermediate reasoning steps (rationales) within its examples, necessitates selecting examples based on these rationales rather than the questions themselves. Existing methods require human experts or pre-trained LLMs to describe the skill, a high-level abstraction of rationales, to guide the selection. These methods, however, are often costly and difficult to scale. Instead, this paper introduces a new approach named Latent Reasoning Skills (LaRS) that employs unsupervised learning to create a latent space representation of rationales, with a latent variable called a reasoning skill. Concurrently, LaRS learns a reasoning policy to determine the required reasoning skill for a given question. Then the ICL examples are selected by aligning the reasoning skills between past examples and the question. This approach is theoretically grounded and compute-efficient, eliminating the need for auxiliary LLM inference or manual prompt design. Empirical results demonstrate that LaRS consistently outperforms SOTA skill-based selection methods, processing example banks four times faster, reducing LLM inferences during the selection stage by half, and showing greater robustness to sub-optimal example banks.

arxiv情報

著者 Zifan Xu,Haozhu Wang,Dmitriy Bespalov,Xuan Wang,Peter Stone,Yanjun Qi
発行日 2024-10-21 14:21:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク