要約
数値推論において、数値自体を理解することは、既存の言語モデルにとって依然として課題です。
1+2 ではなく 100+200 を解くなどの単純な一般化は、モデルのパフォーマンスに大きな影響を与える可能性があります (Sivakumar and Moosavi、2023)。
さまざまな技術の中でも、数値の文字レベルの埋め込みは、数値表現を改善するための有望なアプローチとして浮上しています。
ただし、この方法には、数字表現を集約するタスクがモデルに残されており、このプロセスを直接監視できないため、制限があります。
この論文では、数学的事前分布を使用して集約された数字の埋め込みを計算し、これらの集約をトランスフォーマー モデルに明示的に組み込む方法を検討します。
これは、入力埋め込みに特別なトークンを追加するか、追加の損失関数を導入して正しい予測を強化することによって実現できます。
私たちは、この明示的な集計を組み込むことの有効性を評価し、その長所と欠点を分析し、このアプローチからより大きなメリットを得るための将来の方向性について議論します。
私たちのメソッドはシンプルですが、事前トレーニングされたモデルと互換性があり、実装が簡単で、一般に公開されています。
要約(オリジナル)
Within numerical reasoning, understanding numbers themselves is still a challenge for existing language models. Simple generalisations, such as solving 100+200 instead of 1+2, can substantially affect model performance (Sivakumar and Moosavi, 2023). Among various techniques, character-level embeddings of numbers have emerged as a promising approach to improve number representation. However, this method has limitations as it leaves the task of aggregating digit representations to the model, which lacks direct supervision for this process. In this paper, we explore the use of mathematical priors to compute aggregated digit embeddings and explicitly incorporate these aggregates into transformer models. This can be achieved either by adding a special token to the input embeddings or by introducing an additional loss function to enhance correct predictions. We evaluate the effectiveness of incorporating this explicit aggregation, analysing its strengths and shortcomings, and discuss future directions to better benefit from this approach. Our methods, while simple, are compatible with any pretrained model, easy to implement, and have been made publicly available.
arxiv情報
| 著者 | Jasivan Alex Sivakumar,Nafise Sadat Moosavi |
| 発行日 | 2024-12-11 12:47:09+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google