DIMSUM: Discourse in Mathematical Reasoning as a Supervision Module

要約

私たちは、小学校、数学の問題を提示する短いテキストのデータセットであるGSM8Kの推論を見ていきます。
Mirzadeh et al。
(2024)、データセットの現在のLLMの進行は、より良い推論ではなく、より広範な事前トレーニングデータ分布への暴露によって説明される可能性があります。
次に、データまたは劣等なトレーニングの理由であるモデルを支援するための新しい情報ソースを紹介します:談話構造。
談話構造は、LLAMA2 13Bなどのモデルのパフォーマンスを最大160%改善することを示しています。
データセットを記憶している可能性が最も高いモデルでさえ、モデルに談話構造情報を追加すると、予測が改善され、分布の例での大きなモデルパフォーマンスが劇的に向上します。

要約(オリジナル)

We look at reasoning on GSM8k, a dataset of short texts presenting primary school, math problems. We find, with Mirzadeh et al. (2024), that current LLM progress on the data set may not be explained by better reasoning but by exposure to a broader pretraining data distribution. We then introduce a novel information source for helping models with less data or inferior training reason better: discourse structure. We show that discourse structure improves performance for models like Llama2 13b by up to 160%. Even for models that have most likely memorized the data set, adding discourse structural information to the model still improves predictions and dramatically improves large model performance on out of distribution examples.

arxiv情報

著者 Krish Sharma,Niyar R Barman,Akshay Chaturvedi,Nicholas Asher
発行日 2025-03-07 08:19:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク