Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning

要約

人間による反復的な関与は、大規模言語モデル (LLM) の高度な言語処理能力を活用する一般的かつ効果的な手段です。
人間のユーザーは、会話形式で適切に構造化されたプロンプトを使用することで、LLM に効果的に影響を与え、より思慮深く正確な応答を作成することができます。
この洞察に動機付けられて、私たちは、入力クエリと LLM 応答の現在の反復に対して「思考」を誘発するプロンプトを生成することにより、LLM 応答を強化するための思考反復 (IoT) フレームワークを提案します。
静的または半静的なアプローチとは異なります。
思考連鎖 (CoT) または思考ツリー (ToT) である IoT は、最終的に破棄される代替の探索的思考を生成することなく、進化するコンテキストに基づいて推論パスを動的に適応させます。
IoT フレームワークの 3 つのコンポーネントは次のとおりです。(1) 有益なコンテキスト固有のプロンプトの生成を担当する内部対話エージェント (IDA)。
(2) これらのプロンプトを処理して応答を調整する LLM エージェント (LLMA)。
(3) 前の 2 つのコンポーネント間の会話を実装する反復プロンプト ループ。
私たちはフレームワークの 2 つのバリエーションを導入します。1 つは LLM がいつ反復を停止するかを決定する Autonomous Iteration of Thought (AIoT)、もう 1 つは常に固定回数の反復を強制する Guided Iteration of Thought (GIoT) です。
GPQA データセットの複雑な推論タスク、Game of 24 の探索的問題解決、ミニ クロスワードのパズル解決、HotpotQA データセットのマルチホップ質問応答など、さまざまなデータセットにわたる IoT のパフォーマンスを調査します。
私たちの結果は、IoT が LLM における自律応答の洗練のための実行可能なパラダイムを表し、CoT に比べて大幅な改善を示し、それによって人間の介入を最小限に抑える、より適応的で効率的な推論システムを可能にすることを示しています。

要約(オリジナル)

Iterative human engagement is a common and effective means of leveraging the advanced language processing power of large language models (LLMs). Using well-structured prompts in a conversational manner, human users can effectively influence an LLM to develop more thoughtful and accurate responses. Motivated by this insight, we propose the Iteration of Thought (IoT) framework for enhancing LLM responses by generating ‘thought’-provoking prompts vis a vis an input query and the current iteration of an LLM’s response. Unlike static or semi-static approaches, e.g. Chain of Thought (CoT) or Tree of Thoughts (ToT), IoT adapts its reasoning path dynamically, based on evolving context, and without generating alternate explorative thoughts which are ultimately discarded. The three components of the IoT framework are (1) an Inner Dialogue Agent (IDA) responsible for generating instructive, context-specific prompts; (2) an LLM Agent (LLMA) that processes these prompts to refine its responses; and (3) an iterative prompting loop that implements a conversation between the former two components. We introduce two variants of our framework: Autonomous Iteration of Thought (AIoT), where an LLM decides when to stop iterating, and Guided Iteration of Thought (GIoT), which always forces a fixed number iterations. We investigate the performance of IoT across various datasets, spanning complex reasoning tasks from the GPQA dataset, explorative problem-solving in Game of 24, puzzle solving in Mini Crosswords, and multi-hop question answering from the HotpotQA dataset. Our results show that IoT represents a viable paradigm for autonomous response refinement in LLMs, showcasing significant improvements over CoT and thereby enabling more adaptive and efficient reasoning systems that minimize human intervention.

arxiv情報

著者 Santosh Kumar Radha,Yasamin Nouri Jelyani,Ara Ghukasyan,Oktay Goktas
発行日 2024-10-01 17:50:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MA パーマリンク