Arithmetic-Based Pretraining — Improving Numeracy of Pretrained Language Models

要約

最先端の事前トレーニング済み言語モデルは、数値の理解と操作が必要なタスクにそのまま適用すると、その性能を下回る傾向があります。
最近の研究では、この主な理由として次の 2 つが示唆されています。(1) 一般的なトークン化アルゴリズムでは数値の表現力が限られている、(2) 一般的な事前トレーニングの目標は数値計算を対象としていない。
これらの欠点に対処するアプローチでは、通常、アーキテクチャの変更または最初からの事前トレーニングが必要です。
このペーパーでは、アーキテクチャの変更や最初からの事前トレーニングを必要とせずに、1 つの拡張事前トレーニング ステップで両方に共同で対処する、算術ベースの事前トレーニングと呼ばれる新しい拡張事前トレーニング アプローチを提案します。
算術ベースの事前トレーニングは、数値表現を改善するための対照学習と、計算能力を向上させるための推論可能な数予測タスクと呼ばれる新しい拡張事前トレーニング目標を組み合わせています。
私たちの実験では、数値計算能力の向上を必要とする 3 つの異なるタスク (DROP データセットの読解、InfoTabs データセットの表上の推論、WikiBio と SciGen の表からテキストへの生成) における算術ベースの事前トレーニングの有効性が示されています。
データセット。

要約(オリジナル)

State-of-the-art pretrained language models tend to perform below their capabilities when applied out-of-the-box on tasks that require understanding and working with numbers. Recent work suggests two main reasons for this: (1) popular tokenisation algorithms have limited expressiveness for numbers, and (2) common pretraining objectives do not target numeracy. Approaches that address these shortcomings usually require architectural changes or pretraining from scratch. In this paper, we propose a new extended pretraining approach called Arithmetic-Based Pretraining that jointly addresses both in one extended pretraining step without requiring architectural changes or pretraining from scratch. Arithmetic-Based Pretraining combines contrastive learning to improve the number representation, and a novel extended pretraining objective called Inferable Number Prediction Task to improve numeracy. Our experiments show the effectiveness of Arithmetic-Based Pretraining in three different tasks that require improved numeracy, i.e., reading comprehension in the DROP dataset, inference-on-tables in the InfoTabs dataset, and table-to-text generation in the WikiBio and SciGen datasets.

arxiv情報

著者 Dominic Petrak,Nafise Sadat Moosavi,Iryna Gurevych
発行日 2023-06-09 08:04:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク