要約
AI 研究における最近の画期的な急速な進歩にもかかわらず、最先端の大規模言語モデル (LLM) でさえ、論理的および数学的推論を実行する際に依然として困難を抱えていることが研究によって強調されています。
この結果は、LLM が依然として (高度な) データ パターン識別子として機能し、モデルがこれまで見たことのない推論問題や、トレーニング データで提示されたサンプルに近くない推論問題を一般化して解決しようとすると、スコアが低くなることを示唆しているようです。
この切実な懸念に対処するために、本論文は、特にトゥールミンの議論モデルに焦点を当てて、議論理論に関する文献からの批判的質問の概念を利用する。
これらの重要な質問を採用すると、LLM の推論能力が向上する可能性があることを示します。
モデルの推論プロセスの背後にある理論的根拠を調査することにより、LLM は何らかの論理的誤りが発生しているかどうかを評価し、ユーザー プロンプトに最終応答を返す前にそれを修正できます。
根底にある考え方は、有効な議論手順の黄金律から導かれます。つまり、受け入れられた前提に従えば、結論は有効です。
あるいは、そのようなアリストテレス原理を、不完全な情報と推定的な論理によって特徴付けられる現実世界の近似で言い換えると、別の方法で証明されない限り、結論は有効です。
このアプローチでは、推論パイプラインを通じてモデルの出力を適切に制御することができ、その結果、ベースラインとその思考連鎖 (CoT) 実装に対するパフォーマンスが向上します。
この目的を達成するために、さまざまな LLM にわたる MT ベンチ推論および数学タスクに関する提案されたアプローチの広範な評価が提供されます。
要約(オリジナル)
Studies have underscored how, regardless of the recent breakthrough and swift advances in AI research, even state-of-the-art Large Language models (LLMs) continue to struggle when performing logical and mathematical reasoning. The results seem to suggest that LLMs still work as (highly advanced) data pattern identifiers, scoring poorly when attempting to generalise and solve reasoning problems the models have never previously seen or that are not close to samples presented in their training data. To address this compelling concern, this paper makes use of the notion of critical questions from the literature on argumentation theory, focusing in particular on Toulmin’s model of argumentation. We show that employing these critical questions can improve the reasoning capabilities of LLMs. By probing the rationale behind the models’ reasoning process, the LLM can assess whether some logical mistake is occurring and correct it before providing the final reply to the user prompt. The underlying idea is drawn from the gold standard of any valid argumentative procedure: the conclusion is valid if it is entailed by accepted premises. Or, to paraphrase such Aristotelian principle in a real-world approximation, characterised by incomplete information and presumptive logic, the conclusion is valid if not proved otherwise. This approach successfully steers the models’ output through a reasoning pipeline, resulting in better performance against the baseline and its Chain-of-Thought (CoT) implementation. To this end, an extensive evaluation of the proposed approach on the MT-Bench Reasoning and Math tasks across a range of LLMs is provided.
arxiv情報
著者 | Federico Castagna,Isabel Sassoon,Simon Parsons |
発行日 | 2024-12-19 18:51:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google