要約
本論文では、Transformersをリカレントメカニズムで拡張する2つの主要なアプローチ、(1)Universal Transformersのように深さ方向のリカレンスを組み込むアプローチ、(2)Temporal Latent Bottleneckのようにチャンク方向の時間的リカレンスを組み込むアプローチ、の帰納的バイアスを包括的に研究する。例えば、Universal Transformersのための大域平均ベースの動的停止メカニズムや、Temporal Latent BottleneckをUniversal Transformerの要素で拡張することを提案する。長距離アリーナ(LRA)、フリップフロップ言語モデリング、ListOps、論理推論などのいくつかの診断タスクにおいて、モデルを比較し、それらの帰納的バイアスを調査する。コードは https://github.com/JRC1995/InvestigatingRecurrentTransformers/tree/main で公開されている。
要約(オリジナル)
In this paper, we comprehensively study the inductive biases of two major approaches to augmenting Transformers with a recurrent mechanism: (1) the approach of incorporating a depth-wise recurrence similar to Universal Transformers; and (2) the approach of incorporating a chunk-wise temporal recurrence like Temporal Latent Bottleneck. Furthermore, we propose and investigate novel ways to extend and combine the above methods – for example, we propose a global mean-based dynamic halting mechanism for Universal Transformers and an augmentation of Temporal Latent Bottleneck with elements from Universal Transformer. We compare the models and probe their inductive biases in several diagnostic tasks, such as Long Range Arena (LRA), flip-flop language modeling, ListOps, and Logical Inference. The code is released in: https://github.com/JRC1995/InvestigatingRecurrentTransformers/tree/main
arxiv情報
著者 | Jishnu Ray Chowdhury,Cornelia Caragea |
発行日 | 2024-09-03 02:35:52+00:00 |
arxivサイト | arxiv_id(pdf) |