要約
大規模な言語モデル(LLM)にはマルチステップの推論が不可欠ですが、多言語のパフォーマンスは依然として困難です。
チェーンオブシューター(COT)が推論を改善する一方で、推論と実行の絡み合いにより英語以外の言語に苦労しています。
プログラムの考え方(POT)は、推論を実行から分離し、有望な代替手段を提供しますが、英語以外の質問からプログラムを生成するための課題をシフトします。
多言語の推論をコード実行から分離することにより、ポットを評価するフレームワークを提案します。
私たちの調査結果は、ポットの微調整が多言語の推論を大幅に強化することを示しています。
さらに、推論の品質(コードの品質を通じて測定)と回答の精度との強い相関関係を示し、テスト時間のパフォーマンス改善ヒューリスティックとしての可能性を強調します。
要約(オリジナル)
Multi-step reasoning is essential for large language models (LLMs), yet multilingual performance remains challenging. While Chain-of-Thought (CoT) prompting improves reasoning, it struggles with non-English languages due to the entanglement of reasoning and execution. Program-of-Thought (PoT) prompting separates reasoning from execution, offering a promising alternative but shifting the challenge to generating programs from non-English questions. We propose a framework to evaluate PoT by separating multilingual reasoning from code execution to examine (i) the impact of fine-tuning on question-reasoning alignment and (ii) how reasoning quality affects answer correctness. Our findings demonstrate that PoT fine-tuning substantially enhances multilingual reasoning, outperforming CoT fine-tuned models. We further demonstrate a strong correlation between reasoning quality (measured through code quality) and answer accuracy, highlighting its potential as a test-time performance improvement heuristic.
arxiv情報
著者 | Patomporn Payoungkhamdee,Pume Tuchinda,Jinheon Baek,Samuel Cahyawijaya,Can Udomcharoenchaikit,Potsawee Manakul,Peerat Limkonchotiwat,Ekapol Chuangsuwanich,Sarana Nutanong |
発行日 | 2025-05-22 17:29:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google