THREAD: Thinking Deeper with Recursive Spawning

要約

大規模言語モデル (LLM) は、さまざまな設定にわたって優れた機能を示していますが、コンテキストの長さと複雑さが増大するにつれて、依然として困難を極めています。
この課題に対処するために、私たちは再帰的かつ動的に考えること (ThReaD) を提案します。
THREAD フレームは、コンテキストに基づいて完了まで実行したり、新しいスレッドを動的に生成したりできる実行スレッドとして生成をモデル化します。
生成することにより、スレッドは作業 (思考、情報の取得など) を子スレッドにオフロードでき、子スレッドは親スレッドが作業を行うために必要なトークンのみを返します。
実際、これによりモデルはトークンの生成に使用される中間作業の量を必要に応じて調整できるようになります。
LLM のタスク解決と質問応答の設定に THREAD を適用します。動的スレッドにより、モデルは指定されたタスクまたは質問を、個別の子スレッドで解決できる徐々に単純なサブ問題に再帰的に分解できます。
私たちは、エージェントのタスクとデータに基づいた質問応答のさまざまなベンチマークで、数ショット学習アプローチを使用して実装された THREAD をテストします。
THREAD は、ALFWorld、TextCraft、WebShop などのベンチマークと、DataCommons QA および MIMIC-III ICU QA の 2 つの新しいベンチマークを含む GPT-4 および GPT-3.5 で最先端のパフォーマンスを実現します。
さらに、THREAD は、Llama-3-8b や CodeLlama-7b などの小規模なモデルで、既存のフレームワークよりも絶対ポイントで 10% ~ 50% 優れています。

要約(オリジナル)

Large language models (LLMs) have shown impressive capabilities across diverse settings, but still struggle as the length and complexity of the context increases. To address this challenge, we propose Thinking Recursively and Dynamically (ThReaD). THREAD frames model generation as a thread of execution that, based on the context, can run to completion or dynamically spawn new threads. By spawning, threads can offload work (e.g., thinking, retrieving information) to child threads, which only return tokens needed for the parent thread to do its work. In effect, this enables the model to adapt, as needed, the amount of intermediate work used to produce tokens. We apply THREAD in the settings of LLM task solving and question answering, where the dynamic threading allows the model to recursively decompose the given task or question into progressively simpler sub-problems that can be solved by separate child threads. We test THREAD, implemented using a few-shot learning approach, on diverse benchmarks for agent tasks and data-grounded question answering. THREAD achieves state-of-the-art performance with GPT-4 and GPT-3.5 on these benchmarks, including ALFWorld, TextCraft, and WebShop, along with two new benchmarks, DataCommons QA and MIMIC-III ICU QA. In addition, THREAD outperforms existing frameworks by 10% to 50% absolute points with smaller models, including Llama-3-8b and CodeLlama-7b.

arxiv情報

著者 Philip Schroeder,Nathaniel Morgan,Hongyin Luo,James Glass
発行日 2024-05-27 17:51:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク