要約
この論文では、言語モデルの出力埋め込みにおける出力トークン確率情報を調査します。
出力埋め込みベクトル内の出力トークン確率の近似共通対数線形エンコーディングを見つけ、それが正確でスパースであることを経験的に実証します。
因果関係の検査として、出力の確率分布を正確に変更するために、出力の埋め込みにおけるエンコードを制御します。
さらに、出力確率エンコーディングで見つかったスパース性は、出力埋め込みの多数の次元が因果言語モデリングに寄与していないことを示唆しています。
したがって、出力に関連しないディメンションを削除しようとしましたが、出力分布とシーケンス生成に大きな変動を与えることなく、ディメンションの 30% 以上を削除できることがわかりました。
さらに、言語モデルの事前トレーニングのダイナミクスでは、パラメーターの明らかな収束が始まる前であっても、出力埋め込みが初期のステップでコーパス トークンの頻度情報をキャプチャしていることがわかります。
要約(オリジナル)
In this paper, we investigate the output token probability information in the output embedding of language models. We find an approximate common log-linear encoding of output token probabilities within the output embedding vectors and empirically demonstrate that it is accurate and sparse. As a causality examination, we steer the encoding in output embedding to modify the output probability distribution accurately. Moreover, the sparsity we find in output probability encoding suggests that a large number of dimensions in the output embedding do not contribute to causal language modeling. Therefore, we attempt to delete the output-unrelated dimensions and find more than 30% of the dimensions can be deleted without significant movement in output distribution and sequence generation. Additionally, in the pre-training dynamics of language models, we find that the output embeddings capture the corpus token frequency information in early steps, even before an obvious convergence of parameters starts.
arxiv情報
| 著者 | Hakaze Cho,Yoshihiro Sakai,Kenshiro Tanaka,Mariko Kato,Naoya Inoue |
| 発行日 | 2024-12-11 13:22:12+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google