要約
トランスフォーマーは、NLP タスクで広く使用されています。
ただし、言語を理解するためにトランスフォーマーを活用する現在のアプローチには、1 つの弱点があります。それは、数の理解です。
一部のシナリオでは、特にテーブルのような半構造化データで、数値が頻繁に発生します。
しかし、トランスフォーマーベースの言語モデルを使用した豊富な数のタスクへの現在のアプローチでは、数値をサブワード トークンに分割するなど、計算情報の一部を放棄または失うため、多くの数値関連のエラーが発生します。
この論文では、変換器ベースの言語モデルの数値推論と計算能力を向上させる LUNA フレームワークを提案します。
NumTok と NumBed の数値プラグインにより、LUNA は各数値を全体として表現して入力をモデル化します。
回帰損失とモデル蒸留を含む数値の事前トレーニングにより、LUNA は数値と語彙の埋め込みの間のギャップを埋めます。
私たちの知る限りでは、これは数値プラグインを使用して言語モデルに計算能力を明示的に注入した最初の作品です。
おもちゃのタスクでおもちゃのモデルを評価するだけでなく、3 つの異なるダウンストリーム タスク (TATQA、TabFact、CrediTrans) で 3 つの大規模な変換モデル (RoBERTa、BERT、TabBERT) で LUNA を評価し、言語モデルのパフォーマンスが LUNA によって常に改善されていることを観察します。
.
拡張モデルは、TAT-QA の公式ベースライン (EM: 50.15 -> 59.58) も改善し、CrediTrans で SOTA パフォーマンスを達成します (F1 = 86.17)。
要約(オリジナル)
Transformers are widely used in NLP tasks. However, current approaches to leveraging transformers to understand language expose one weak spot: Number understanding. In some scenarios, numbers frequently occur, especially in semi-structured data like tables. But current approaches to rich-number tasks with transformer-based language models abandon or lose some of the numeracy information – e.g., breaking numbers into sub-word tokens – which leads to many number-related errors. In this paper, we propose the LUNA framework which improves the numerical reasoning and calculation capabilities of transformer-based language models. With the number plugin of NumTok and NumBed, LUNA represents each number as a whole to model input. With number pre-training, including regression loss and model distillation, LUNA bridges the gap between number and vocabulary embeddings. To the best of our knowledge, this is the first work that explicitly injects numeracy capability into language models using Number Plugins. Besides evaluating toy models on toy tasks, we evaluate LUNA on three large-scale transformer models (RoBERTa, BERT, TabBERT) over three different downstream tasks (TATQA, TabFact, CrediTrans), and observe the performances of language models are constantly improved by LUNA. The augmented models also improve the official baseline of TAT-QA (EM: 50.15 -> 59.58) and achieve SOTA performance on CrediTrans (F1 = 86.17).
arxiv情報
著者 | Hongwei Han,Jialiang Xu,Mengyu Zhou,Yijia Shao,Shi Han,Dongmei Zhang |
発行日 | 2023-03-16 17:04:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google