Recursion of Thought: A Divide-and-Conquer Approach to Multi-Context Reasoning with Language Models

要約

中間ステップ、つまり思考連鎖 (CoT) の生成は、言語モデル (LM) のマルチステップ推論能力を大幅に向上させる効果的な方法です。
ただし、CoT の長さは問題の複雑さに応じて急速に増大し、最大コンテキスト サイズを容易に超えてしまう可能性があります。
すでに詳しく調査されているコンテキストの制限を増やす代わりに、LM で問題を複数のコンテキストに分割するという直交する方向を探ります。
私たちは、思考の再帰 (RoT) と呼ばれる新しい推論フレームワークを提案します。これは、コンテキスト関連の操作をトリガーするためにモデルが出力できるいくつかの特別なトークンを導入します。
GPT-3 を含む複数のアーキテクチャを使った広範な実験により、RoT が問題を解決するための LM の推論能力を劇的に向上させることが示されており、その解決策は数​​十万のトークンで構成されています。

要約(オリジナル)

Generating intermediate steps, or Chain of Thought (CoT), is an effective way to significantly improve language models’ (LM) multi-step reasoning capability. However, the CoT lengths can grow rapidly with the problem complexity, easily exceeding the maximum context size. Instead of increasing the context limit, which has already been heavily investigated, we explore an orthogonal direction: making LMs divide a problem into multiple contexts. We propose a new inference framework, called Recursion of Thought (RoT), which introduces several special tokens that the models can output to trigger context-related operations. Extensive experiments with multiple architectures including GPT-3 show that RoT dramatically improves LMs’ inference capability to solve problems, whose solution consists of hundreds of thousands of tokens.

arxiv情報

著者 Soochan Lee,Gunhee Kim
発行日 2023-06-12 06:34:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク