要約
大規模言語モデル (LLM) は幅広いタスクを解決できますが、推論には苦労しています。
これに対処するために、プログラムで生成された論理推論サンプルによって LLM の推論能力を強化することを目的とした $\textbf{追加論理トレーニング (ALT)}$ を提案します。
まず、記号論理理論と以前の経験的洞察を統合することにより、高品質のサンプルを設計するための原則を確立します。
次に、これらの原則に基づいて、$\textbf{Formal Logic Deduction Diverse}$ ($\textbf{FLD}$$^{\times 2}$) という名前の合成コーパスを構築します。これは、次のような多段階の演繹の多数のサンプルで構成されています。
未知の事実、多様な推論ルール、多様な言語表現、そして挑戦的な気を散らすもの。
最後に、FLD$^{\times2}$ の ALT が、LLaMA-3.1-70B を含む最先端の LLM の推論能力を大幅に強化することを経験的に示します。
改善には、論理的推論ベンチマークで最大 30 ポイント、数学およびコーディング ベンチマークで最大 10 ポイント、ベンチマーク スイート BBH で 5 ポイントの向上が含まれます。
要約(オリジナル)
Large language models (LLMs) are capable of solving a wide range of tasks, yet they have struggled with reasoning. To address this, we propose $\textbf{Additional Logic Training (ALT)}$, which aims to enhance LLMs’ reasoning capabilities by program-generated logical reasoning samples. We first establish principles for designing high-quality samples by integrating symbolic logic theory and previous empirical insights. Then, based on these principles, we construct a synthetic corpus named $\textbf{Formal Logic Deduction Diverse}$ ($\textbf{FLD}$$^{\times 2}$), comprising numerous samples of multi-step deduction with unknown facts, diverse reasoning rules, diverse linguistic expressions, and challenging distractors. Finally, we empirically show that ALT on FLD$^{\times2}$ substantially enhances the reasoning capabilities of state-of-the-art LLMs, including LLaMA-3.1-70B. Improvements include gains of up to 30 points on logical reasoning benchmarks, up to 10 points on math and coding benchmarks, and 5 points on the benchmark suite BBH.
arxiv情報
著者 | Terufumi Morishita,Gaku Morio,Atsuki Yamaguchi,Yasuhiro Sogawa |
発行日 | 2024-11-19 13:31:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google