Investigating Recurrent Transformers with Dynamic Halt

要約

この論文では、反復メカニズムでトランスフォーマーを強化するための 2 つの主要なアプローチの誘導バイアスを研究します。(1) ユニバーサル トランスフォーマーと同様の深さ方向の反復を組み込むアプローチ。
(2) 時間的潜在ボトルネックのようなチャンク単位の時間的再発を組み込むアプローチ。
さらに、上記の方法を拡張および組み合わせる新しい方法を提案および調査します。たとえば、Universal Transformer のグローバル平均ベースの動的停止メカニズムや、Universal Transformer の要素を使用した時間的潜在ボトルネックの強化を提案します。
モデルを比較し、Long Range Arena (LRA)、フリップフロップ言語モデリング、ListOps、論理推論などのいくつかの診断タスクでその帰納的バイアスを調査します。

要約(オリジナル)

In this paper, we study the inductive biases of two major approaches to augmenting Transformers with a recurrent mechanism – (1) the approach of incorporating a depth-wise recurrence similar to Universal Transformers; and (2) the approach of incorporating a chunk-wise temporal recurrence like Temporal Latent Bottleneck. Furthermore, we propose and investigate novel ways to extend and combine the above methods – for example, we propose a global mean-based dynamic halting mechanism for Universal Transformer and an augmentation of Temporal Latent Bottleneck with elements from Universal Transformer. We compare the models and probe their inductive biases in several diagnostic tasks such as Long Range Arena (LRA), flip-flop language modeling, ListOps, and Logical Inference.

arxiv情報

著者 Jishnu Ray Chowdhury,Cornelia Caragea
発行日 2024-03-31 23:06:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE パーマリンク