要約
チェーンオブテーブル(COT)は、大規模な言語モデル(LLM)の推論能力を高めるための重要なメカニズムとして浮上しており、自己整合性がパフォーマンスを向上させる顕著な約束を示しています。
ただし、多言語トレーニングのコーパスに固有の言語バイアスは、特にSub-10BパラメーターLLMSの複雑な推論タスクを処理するSub-10BパラメーターLLMSで、セマンティックドリフトと論理的な矛盾を頻繁に引き起こします。
これらの制約を克服するために、LLMSの推論能力を高めるために多数派の投票を通じて多言語の推論パスを統合する革新的な推論パラダイムである、横断的一貫性(CLC)フレームワークを提案します。
CMATHデータセットでの経験的評価は、従来の自己整合法に対するCLCの優位性を明らかにし、QWEN2.5-MATH-7B-struct、およびGemma2- instructのDeepSeek-Math-7B-structの9.5%、6.5%、および6.0%の絶対精度の向上をそれぞれ提供します。
CLCの言語範囲を11の多様な言語に拡大することは、2つの相乗的利点を意味します。1)多言語のアンサンブル投票を通じて多言語トレーニングコーパスにおける言語バイアスを中和する、2)より広い多言語ソリューションスペースを探索することにより、単一言語の推論トラップを逃れます。
この二重の利点は、MGSMデータセットのGEMMA2-9B-Instructを使用して4.1%-18.5%の精度が得られることによって証明されるように、単一言語の自己整合性ベースラインと比較して、よりグローバルに最適な推論パスを経験的に可能にします。
要約(オリジナル)
Chain-of-thought (CoT) has emerged as a critical mechanism for enhancing reasoning capabilities in large language models (LLMs), with self-consistency demonstrating notable promise in boosting performance. However, inherent linguistic biases in multilingual training corpora frequently cause semantic drift and logical inconsistencies, especially in sub-10B parameter LLMs handling complex inference tasks. To overcome these constraints, we propose the Cross-Lingual Consistency (CLC) framework, an innovative inference paradigm that integrates multilingual reasoning paths through majority voting to elevate LLMs’ reasoning capabilities. Empirical evaluations on the CMATH dataset reveal CLC’s superiority over the conventional self-consistency method, delivering 9.5%, 6.5%, and 6.0% absolute accuracy gains for DeepSeek-Math-7B-Instruct, Qwen2.5-Math-7B-Instruct, and Gemma2-9B-Instruct respectively. Expanding CLC’s linguistic scope to 11 diverse languages implies two synergistic benefits: 1) neutralizing linguistic biases in multilingual training corpora through multilingual ensemble voting, 2) escaping monolingual reasoning traps by exploring the broader multilingual solution space. This dual benefits empirically enables more globally optimal reasoning paths compared to monolingual self-consistency baselines, as evidenced by the 4.1%-18.5% accuracy gains using Gemma2-9B-Instruct on the MGSM dataset.
arxiv情報
著者 | Zhiwei Yu,Tuo Li,Changhong Wang,Hui Chen,Lang Zhou |
発行日 | 2025-04-02 16:09:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google