要約
大規模言語モデル (LLM) はさまざまな評価ベンチマークで優れたパフォーマンスを達成していますが、特定の知識とマルチホップ推論を必要とする複雑な推論タスクでは依然として苦労しています。
推論能力を向上させるために、チャットベースの LLM 用のツールで強化された思考連鎖推論フレームワークである \textbf{ChatCoT} を提案します。
ChatCoT では、チャットを通じてより自然な方法でツールを活用するために、思考連鎖 (CoT) 推論を複数ターンの会話としてモデル化します。
各ターンで、LLM はツールと対話することも、推論を実行することもできます。
私たちのアプローチは、チャットベースの LLM のマルチターン会話機能を効果的に活用し、思考連鎖の追跡とツールの操作を統一された方法で統合できます。
特に、ツール、タスク、推論形式によって会話の初期ターンを初期化し、段階的にツール拡張推論を実行するための反復 \emph{ツール拡張推論} ステップを提案します。
2 つの複雑な推論データセット (MATH と HotpotQA) に関する実験結果は、複雑な推論タスクに対する ChatCoT の有効性を示し、最先端のベースラインと比較して 6.8\% の相対的な改善を達成しました。
コードとデータは \url{https://github.com/RUCAIBOX/ChatCoT} で入手できます。
要約(オリジナル)
Although large language models (LLMs) have achieved excellent performance in a variety of evaluation benchmarks, they still struggle in complex reasoning tasks which require specific knowledge and multi-hop reasoning. To improve the reasoning abilities, we propose \textbf{ChatCoT}, a tool-augmented chain-of-thought reasoning framework for chat-based LLMs. In ChatCoT, we model the chain-of-thought~(CoT) reasoning as multi-turn conversations, to utilize tools in a more natural way through chatting. At each turn, LLMs can either interact with tools or perform the reasoning. Our approach can effectively leverage the multi-turn conversation ability of chat-based LLMs, and integrate the thought chain following and tools manipulation in a unified way. Specially, we initialize the early turns of the conversation by the tools, tasks and reasoning format, and propose an iterative \emph{tool-augmented reasoning} step to perform step-by-step tool-augmented reasoning. The experiment results on two complex reasoning datasets (MATH and HotpotQA) have shown the effectiveness of ChatCoT on complex reasoning tasks, achieving a 6.8\% relative improvement over the state-of-the-art baseline. Our code and data are available at: \url{https://github.com/RUCAIBOX/ChatCoT}.
arxiv情報
著者 | Zhipeng Chen,Kun Zhou,Beichen Zhang,Zheng Gong,Wayne Xin Zhao,Ji-Rong Wen |
発行日 | 2023-05-24 11:40:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google