要約
Transformer ベースの言語モデルには、基本的な定量的推論を実行する機能があることがわかっています。
この論文では、これらのモデルが数値データを内部的にどのように表現するかを研究する方法を提案し、私たちの提案を使用して ALBERT ファミリの言語モデルを分析します。
具体的には、これらのモデルが数値と序数に対応するトークンを表すために使用する学習されたエンベディングを抽出し、これらのエンベディングを主成分分析 (PCA) の対象にします。
PCA の結果は、個別にトレーニングおよび初期化されたさまざまなサイズの ALBERT モデルが、さまざまな数値概念のおおよその順序を表すために最大変動の軸を使用することを一貫して学習していることを明らかにしています。
数字とそれに対応するテキストは別々のクラスターで表されますが、2D 空間では同じ方向に沿って増加します。
私たちの調査結果は、純粋にテキストをモデル化するために訓練された言語モデルが基本的な数学的概念を直観的に理解し、定量的推論と交差する NLP アプリケーションへの道を開くことができることを示しています。
要約(オリジナル)
It has been found that Transformer-based language models have the ability to perform basic quantitative reasoning. In this paper, we propose a method for studying how these models internally represent numerical data, and use our proposal to analyze the ALBERT family of language models. Specifically, we extract the learned embeddings these models use to represent tokens that correspond to numbers and ordinals, and subject these embeddings to Principal Component Analysis (PCA). PCA results reveal that ALBERT models of different sizes, trained and initialized separately, consistently learn to use the axes of greatest variation to represent the approximate ordering of various numerical concepts. Numerals and their textual counterparts are represented in separate clusters, but increase along the same direction in 2D space. Our findings illustrate that language models, trained purely to model text, can intuit basic mathematical concepts, opening avenues for NLP applications that intersect with quantitative reasoning.
arxiv情報
著者 | Ulme Wennberg,Gustav Eje Henter |
発行日 | 2024-04-25 12:36:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google