要約
言語モデル (LM) が人間の言語を忠実にモデル化するには、膨大で潜在的に無限の情報を比較的少ない次元に圧縮する必要があります。
私たちは、幾何学的な観点と情報理論的な観点から、(事前に訓練された) LM の圧縮を分析することを提案します。
我々は、言語データの固有の幾何学的次元が LM の下でのコーディング長を予測するなど、2 つのビューが高度に相関していることを実証します。
次に、言語データセットの高圧縮がそのデータセットへの迅速な適応を予測することを示し、言語情報を圧縮できることが LM パフォーマンスの成功の重要な部分であることを確認します。
私たちの分析の実際的な副産物として、言語データに関して一連の固有次元推定量を初めて評価し、情報理論的圧縮、幾何学的圧縮、および適応の容易さの間の関係をカプセル化しているのは一部だけであることを示しました。
要約(オリジナル)
For a language model (LM) to faithfully model human language, it must compress vast, potentially infinite information into relatively few dimensions. We propose analyzing compression in (pre-trained) LMs from two points of view: geometric and information-theoretic. We demonstrate that the two views are highly correlated, such that the intrinsic geometric dimension of linguistic data predicts their coding length under the LM. We then show that, in turn, high compression of a linguistic dataset predicts rapid adaptation to that dataset, confirming that being able to compress linguistic information is an important part of successful LM performance. As a practical byproduct of our analysis, we evaluate a battery of intrinsic dimension estimators for the first time on linguistic data, showing that only some encapsulate the relationship between information-theoretic compression, geometric compression, and ease-of-adaptation.
arxiv情報
著者 | Emily Cheng,Corentin Kervadec,Marco Baroni |
発行日 | 2023-10-20 16:12:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google