要約
数学のストーリーの問題を解くことは、学生にとっても NLP モデルにとっても同様に複雑なタスクであり、ストーリーで説明されている世界を理解し、それを推論して答えを計算する必要があります。
近年、事前にトレーニングされた大規模な言語モデルと、問題を促す革新的な技術を使用して、これらの問題を自動的に解決するという目覚ましいパフォーマンスが見られます。
ただし、これらのモデルが数学的概念を正確に表現しているかどうかは依然として不明です。
これは解釈可能性と信頼性の欠如につながり、さまざまなアプリケーションでの有用性を妨げます。
この論文では、数学ストーリー問題の分類と表現に関するこれまでの研究を統合し、数学ストーリー問題の領域に特化したグラフベースの意味論的形式主義である MathWorld を開発します。
MathWorld を使用すると、テキストで紹介されている状況やアクション、およびそれらの数学的関係を表す数学ストーリーの問題に世界モデルを割り当てることができます。
いくつかの既存のデータセットから数学ストーリーの問題を結合し、1,019 の問題と 3,204 の論理形式のコーパスに MathWorld で注釈を付けます。
このデータを使用して、MathWorld の次の使用例を示します: (1) 合成的に生成された質問と回答のペアを使用して言語モデルをプロンプトし、その推論能力と世界モデリング能力を調査する、(2) 世界モデルを設計として使用して新しい問題を生成する
空。
要約(オリジナル)
Solving math story problems is a complex task for students and NLP models alike, requiring them to understand the world as described in the story and reason over it to compute an answer. Recent years have seen impressive performance on automatically solving these problems with large pre-trained language models and innovative techniques to prompt them. However, it remains unclear if these models possess accurate representations of mathematical concepts. This leads to lack of interpretability and trustworthiness which impedes their usefulness in various applications. In this paper, we consolidate previous work on categorizing and representing math story problems and develop MathWorld, which is a graph-based semantic formalism specific for the domain of math story problems. With MathWorld, we can assign world models to math story problems which represent the situations and actions introduced in the text and their mathematical relationships. We combine math story problems from several existing datasets and annotate a corpus of 1,019 problems and 3,204 logical forms with MathWorld. Using this data, we demonstrate the following use cases of MathWorld: (1) prompting language models with synthetically generated question-answer pairs to probe their reasoning and world modeling abilities, and (2) generating new problems by using the world models as a design space.
arxiv情報
著者 | Andreas Opedal,Niklas Stoehr,Abulhair Saparov,Mrinmaya Sachan |
発行日 | 2023-06-07 11:25:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google