要約
大規模な言語モデル(LLM)は、いくつかの複雑な推論タスクに対処できることを証明していますが、入力変動に非常に敏感であり、異なるソリューションパスと最終回答につながる可能性があることも知っています。
したがって、入力のバリエーション全体での回答の一貫性は、より強い信頼性の兆候とみなすことができます。
この洞察を活用して、{\ em multididimensional推論の一貫性}フレームワークを紹介します。ここで、数学の問題に焦点を当てて、モデルが最終回答へのソリューションパスを多様化するために体系的にプッシュされ、それにより複数の入力変動にわたる回答の一貫性についてテストします。
(i)プロンプト、(ii)問題の言い回し、および(iii)使用された言語でのショットの順序のバリエーションを誘導します。
さまざまなサイズの広範なオープンソースの最先端のLLMでの広範な実験は、推論の一貫性が変動の次元によって異なることを示しており、次元間の一貫性を集約することにより、私たちのフレームワークは、単一言語のデータセットGSM8Kと多言語の両方のデータセットMGSMの数学的推論パフォーマンスを一貫して強化することを示しています。
要約(オリジナル)
While Large language models (LLMs) have proved able to address some complex reasoning tasks, we also know that they are highly sensitive to input variation, which can lead to different solution paths and final answers. Answer consistency across input variations can thus be taken as a sign of stronger confidence. Leveraging this insight, we introduce a framework, {\em Multidimensional Reasoning Consistency} where, focusing on math problems, models are systematically pushed to diversify solution paths towards a final answer, thereby testing them for answer consistency across multiple input variations. We induce variations in (i) order of shots in prompt, (ii) problem phrasing, and (iii) languages used. Extensive experiments on a large range of open-source state-of-the-art LLMs of various sizes show that reasoning consistency differs by variation dimension, and that by aggregating consistency across dimensions, our framework consistently enhances mathematical reasoning performance on both monolingual dataset GSM8K and multilingual dataset MGSM, especially for smaller models.
arxiv情報
著者 | Huiyuan Lai,Xiao Zhang,Malvina Nissim |
発行日 | 2025-03-04 14:41:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google