Positional Encoding Helps Recurrent Neural Networks Handle a Large Vocabulary

要約

この研究は、位置エンコーディングがリカレント ニューラル ネットワーク (RNN) の学習を強化するという直感的ではない発見を報告しています。
位置エンコーディングは、入力データの時間インデックスの高次元表現です。
最も有名なのは、位置エンコーディングが、データの順序を表現するための固有のメカニズムを欠いている Transformer ニューラル ネットワークの機能を補完することです。
対照的に、RNN はデータ ポイントの時間情報を独自にエンコードできるため、位置エンコーディングの使用は一見冗長/不必要に見えます。
それにもかかわらず、合成ベンチマークによる調査により、特に低頻度トークンを生成する大量の語彙を処理する場合に、位置エンコーディングと RNN を組み合わせる利点が明らかになりました。
さらに詳しく調べると、これらの低周波トークンがバニラ RNN の勾配を不安定にし、位置エンコーディングがこの不安定性を解決することが判明しました。
これらの結果は、トランスフォーマーのタイムキーパーとしての標準的な役割を超えた、位置エンコーディングの有用性に新たな光を当てています。

要約(オリジナル)

This study reports an unintuitive finding that positional encoding enhances learning of recurrent neural networks (RNNs). Positional encoding is a high-dimensional representation of time indices on input data. Most famously, positional encoding complements the capabilities of Transformer neural networks, which lack an inherent mechanism for representing the data order. By contrast, RNNs can encode the temporal information of data points on their own, rendering their use of positional encoding seemingly redundant/unnecessary. Nonetheless, investigations through synthetic benchmarks reveal an advantage of coupling positional encoding and RNNs, especially for handling a large vocabulary that yields low-frequency tokens. Further scrutinization unveils that these low-frequency tokens destabilizes the gradients of vanilla RNNs, and the positional encoding resolves this instability. These results shed a new light on the utility of positional encoding beyond its canonical role as a timekeeper for Transformers.

arxiv情報

著者 Takashi Morita
発行日 2024-10-10 16:40:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE パーマリンク