Divide and Conquer for Large Language Models Reasoning

要約

大規模言語モデル (LLM) は、思考連鎖 (CoT) とその派生手法の出現により、さまざまな推論ベンチマーク、特に多肢選択質問 (MCQ) を含むタスクで目覚ましいパフォーマンスを示しています。
しかし、現在のワークでは、問題解決の難易度を考慮せずにすべてのデータを一律に処理するため、単純な問題に過度に焦点を当て、複雑な問題には十分ではありません。
この課題に対処するために、私たちは人間がヒューリスティック戦略を使用してタスクを分類し、個別に処理することにヒントを得て、LLM 推論に分割統治を適用することを提案しました。
まず、統計的信頼スコア ($\mathcal{CS}$) に基づいて質問をさまざまなサブセットに分割し、次にほぼ解決済みのセットを修正し、事前知識ベースの推論 (PKR) やフィルターなどの精巧に設計された手法を使用して、要求の厳しい微妙なプロセスのセットを克服します。
選択ベースの推論 (FCR) とその統合バリアント。
私たちの実験は、この提案された戦略が、算術、常識、論理タスクを含む 9 つのデータセットにわたってモデルの推論能力を大幅に向上させることを示しています。
たとえば、ベースラインと比較して、AQuA では 8.72\%、ARC Challenge では 15.07\%、RiddleSense では 7.71\% という低信頼サブセットで顕著な改善が見られます。
さらに、理論的根拠の長さと選択肢の数に関する広範な分析を通じて、PKR の推論パスが長いとモデルが推論的に有害なショートカットを参照するのを防ぐことができることを検証し、また FCR で無関係な選択肢を削除することでモデルの混乱を大幅に回避できることも発見しました。
コードは \url{https://github.com/AiMijie/Divide-and-Conquer} にあります。

要約(オリジナル)

Large language models (LLMs) have shown impressive performance in various reasoning benchmarks with the emergence of Chain-of-Thought (CoT) and its derivative methods, particularly in tasks involving multi-choice questions (MCQs). However, current works all process data uniformly without considering the problem-solving difficulty, which means an excessive focus on simple questions while insufficient to intricate ones. To address this challenge, we inspired by humans using heuristic strategies to categorize tasks and handle them individually, propose to apply the Divide and Conquer to LLMs reasoning. First, we divide questions into different subsets based on the statistical confidence score ($\mathcal{CS}$), then fix nearly resolved sets and conquer demanding nuanced process ones with elaborately designed methods, including Prior Knowledge based Reasoning (PKR) and Filter Choices based Reasoning (FCR), as well as their integration variants. Our experiments demonstrate that this proposed strategy significantly boosts the models’ reasoning abilities across nine datasets involving arithmetic, commonsense, and logic tasks. For instance, compared to baseline, we make a striking improvement on low confidence subsets of 8.72\% for AQuA, 15.07\% for ARC Challenge and 7.71\% for RiddleSense. In addition, through extensive analysis on length of rationale and number of options, we verify that longer reasoning paths in PKR could prevent models from referring infer-harmful shortcuts, and also find that removing irrelevant choices in FCR would substantially avoid models’ confusion. The code is at \url{https://github.com/AiMijie/Divide-and-Conquer}

arxiv情報

著者 Zijie Meng,Yan Zhang,Zhaopeng Feng,Yang Feng,Gaoang Wang,Joey Tianyi Zhou,Jian Wu,Zuozhu Liu
発行日 2024-01-10 14:38:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク