Meta-CoT: Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with Large Language Models

要約

大規模言語モデル (LLM) は、答えを導き出す理論的根拠として機能する中間推論チェーンを生成する思考連鎖 (CoT) プロンプトを利用することで、驚くべき推論能力を明らかにしました。
しかし、現在の CoT 手法では、「段階的に考えてみましょう」などの一般的なプロンプトを単に採用するか、好ましいパフォーマンスを達成するために手作りされたタスク固有のデモンストレーションに大きく依存するため、パフォーマンスと一般化の間に避けられないギャップが生じます。
このギャップを埋めるために、入力質問の種類が不明な混合タスク シナリオにおける一般化可能な CoT プロンプト手法である Meta-CoT を提案します。
Meta-CoT は、まず入力された質問に基づいてシナリオを分類し、その後、対応するデータ プールから自動パターンでさまざまなデモンストレーションを構築します。
Meta-CoT は、10 の公開ベンチマーク推論タスクと優れた一般化機能で優れたパフォーマンスを同時に実現します。
特に、Meta-CoT は、追加のプログラム支援手法を使用せずに、SVAMP で最先端の結果 (93.7%) を達成しました。
5 つの分布外データセットに対するさらなる実験により、Meta-CoT の安定性と一般性が検証されました。

要約(オリジナル)

Large language models (LLMs) have unveiled remarkable reasoning capabilities by exploiting chain-of-thought (CoT) prompting, which generates intermediate reasoning chains to serve as the rationale for deriving the answer. However, current CoT methods either simply employ general prompts such as Let’s think step by step, or heavily rely on handcrafted task-specific demonstrations to attain preferable performances, thereby engendering an inescapable gap between performance and generalization. To bridge this gap, we propose Meta-CoT, a generalizable CoT prompting method in mixed-task scenarios where the type of input questions is unknown. Meta-CoT firstly categorizes the scenario based on the input question and subsequently constructs diverse demonstrations from the corresponding data pool in an automatic pattern. Meta-CoT simultaneously enjoys remarkable performances on ten public benchmark reasoning tasks and superior generalization capabilities. Notably, Meta-CoT achieves the state-of-the-art result on SVAMP (93.7%) without any additional program-aided methods. Our further experiments on five out-of-distribution datasets verify the stability and generality of Meta-CoT.

arxiv情報

著者 Anni Zou,Zhuosheng Zhang,Hai Zhao,Xiangru Tang
発行日 2023-10-11 10:05:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク