要約
大規模言語モデル (LLM) は、中間思考連鎖 (CoT) 推論ステップを生成することにより、少数およびゼロ ショット設定で複雑な推論を実行できます。
さらに、各推論ステップは外部ツールに依存して、コア LLM 機能 (検索/実行コードなど) を超えた計算をサポートできます。
CoT プロンプトとツールの使用に関する以前の作業では、通常、タスク固有のデモンストレーションを手作業で作成し、モデル生成とツールの使用を慎重にスクリプト化してインターリーブする必要があります。
凍結されたLLMを使用して中間推論ステップをプログラムとして自動的に生成するフレームワークであるAutomatic Reasoning and Tool-use (ART)を紹介します。
解決すべき新しいタスクが与えられると、ART はタスク ライブラリから多段階の推論とツールの使用のデモンストレーションを選択します。
テスト時に、ART は外部ツールが呼び出されるたびにシームレスに生成を一時停止し、生成を再開する前にそれらの出力を統合します。
ART は、BigBench および MMLU ベンチマークの目に見えないタスクで、少数ショットのプロンプトと自動 CoT を大幅に改善し、これらのタスクの大部分で手作りの CoT プロンプトのパフォーマンスに匹敵します。
ART は拡張性もあり、タスク固有のプログラムのエラーを修正したり、新しいツールを組み込んだりすることで、人間が簡単にパフォーマンスを改善できるようにします。
要約(オリジナル)
Large language models (LLMs) can perform complex reasoning in few- and zero-shot settings by generating intermediate chain of thought (CoT) reasoning steps. Further, each reasoning step can rely on external tools to support computation beyond the core LLM capabilities (e.g. search/running code). Prior work on CoT prompting and tool use typically requires hand-crafting task-specific demonstrations and carefully scripted interleaving of model generations with tool use. We introduce Automatic Reasoning and Tool-use (ART), a framework that uses frozen LLMs to automatically generate intermediate reasoning steps as a program. Given a new task to solve, ART selects demonstrations of multi-step reasoning and tool use from a task library. At test time, ART seamlessly pauses generation whenever external tools are called, and integrates their output before resuming generation. ART achieves a substantial improvement over few-shot prompting and automatic CoT on unseen tasks in the BigBench and MMLU benchmarks, and matches performance of hand-crafted CoT prompts on a majority of these tasks. ART is also extensible, and makes it easy for humans to improve performance by correcting errors in task-specific programs or incorporating new tools, which we demonstrate by drastically improving performance on select tasks with minimal human intervention.
arxiv情報
著者 | Bhargavi Paranjape,Scott Lundberg,Sameer Singh,Hannaneh Hajishirzi,Luke Zettlemoyer,Marco Tulio Ribeiro |
発行日 | 2023-03-16 01:04:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google