DefInt: A Default-interventionist Framework for Efficient Reasoning with Hybrid Large Language Models

要約

大規模言語モデル (LLM) は、幅広いタスクにおいて優れた創発的能力を示していますが、複雑な推論問題を処理する際には依然として課題に直面しています。
思考連鎖 (CoT) や思考ツリー (ToT) などのこれまでの研究は、主に精度の向上に焦点を当てていましたが、急速に増加するトークン コストを見落としていました。これは、膨大な量のオープンエンドな現実世界のタスクでは特に問題となる可能性があります。
ソリューションスペース。
人間の認知の二重プロセス理論に動機付けられ、ハイブリッド LLM の相乗効果の可能性を解き放つデフォルト介入主義フレームワーク (DefInt) を提案します。
デフォルトでは、DefInt はより小規模な言語モデルを使用して、システム 1 によって生成される高速な直感に似た低コストの推論思考を生成します。直感が低い信頼度で考慮される場合、DefInt はスケールアップされた言語モデルの反射的推論を次のように呼び出します。
システム 2 の介入により、デフォルトの思考が上書きされ、推論プロセスが修正されます。
5 つの代表的な推論タスクに関する実験では、DefInt が常に最先端の推論精度とソリューションの多様性を達成していることが示されています。
さらに重要なのは、2 番目の正確なベースラインと比較して、トークン コストが 49% ~ 79% 大幅に削減されることです。
具体的には、オープンエンドタスクではトークンコストが平均 75% 削減されます。
すべてのプロンプトを含むコード リポジトリは、公開と同時にリリースされます。

要約(オリジナル)

Large language models (LLMs) have shown impressive emergent abilities in a wide range of tasks, but still face challenges in handling complex reasoning problems. Previous works like chain-of-thought (CoT) and tree-of-thoughts (ToT) have predominately focused on enhancing accuracy, but overlook the rapidly increasing token cost, which could be particularly problematic for open-ended real-world tasks with huge solution spaces. Motivated by the dual process theory of human cognition, we propose a Default-Interventionist framework (DefInt) to unleash the synergistic potential of hybrid LLMs. By default, DefInt uses smaller-scale language models to generate low-cost reasoning thoughts, which resembles the fast intuitions produced by System 1. If the intuitions are considered with low confidence, DefInt will invoke the reflective reasoning of scaled-up language models as the intervention of System 2, which can override the default thoughts and rectify the reasoning process. Experiments on five representative reasoning tasks show that DefInt consistently achieves state-of-the-art reasoning accuracy and solution diversity. More importantly, it substantially reduces the token cost by 49%-79% compared to the second accurate baselines. Specifically, the open-ended tasks have an average 75% token cost reduction. Code repo with all prompts will be released upon publication.

arxiv情報

著者 Yu Shang,Yu Li,Fengli Xu,Yong Li
発行日 2024-08-01 07:46:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク