要約
位置エンコーディング (PE) は、語順情報をトランスフォーマーベースの言語モデルに注入するために使用されます。
それらは文表現の品質を大幅に向上させることができますが、特にさまざまな位置エンコーディングが語順に影響されないという最近の発見を考慮すると、言語モデルに対するその具体的な貢献は完全には理解されていません。
この研究では、 \textbf{双方向マスク言語モデル} (BERT スタイル) の位置エンコーディングの系統的な研究を行い、次の 3 つの側面で既存の研究を補完します。 (1) 2 つの共通のプロパティを特定することにより、PE の中核機能を明らかにします。
、局所性と対称性。
(2) 2 つの特性が下流タスクのパフォーマンスと密接に相関していることを示します。
(3) 現在の PE のパフォーマンスが低い 2 つの新しいプローブ タスクを導入することにより、現在の PE の弱点を定量化します。
私たちは、これらの結果が、トランスフォーマーベースの言語モデルのためのより優れた PE を開発するための基礎になると信じています。
コードは \faGithub~ \url{https://github.com/tigerchen52/locality\_symmetry} で入手できます。
要約(オリジナル)
Positional Encodings (PEs) are used to inject word-order information into transformer-based language models. While they can significantly enhance the quality of sentence representations, their specific contribution to language models is not fully understood, especially given recent findings that various positional encodings are insensitive to word order. In this work, we conduct a systematic study of positional encodings in \textbf{Bidirectional Masked Language Models} (BERT-style) , which complements existing work in three aspects: (1) We uncover the core function of PEs by identifying two common properties, Locality and Symmetry; (2) We show that the two properties are closely correlated with the performances of downstream tasks; (3) We quantify the weakness of current PEs by introducing two new probing tasks, on which current PEs perform poorly. We believe that these results are the basis for developing better PEs for transformer-based language models. The code is available at \faGithub~ \url{https://github.com/tigerchen52/locality\_symmetry}
arxiv情報
著者 | Lihu Chen,Gaël Varoquaux,Fabian M. Suchanek |
発行日 | 2023-10-19 16:15:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google