Exploring the sequence length bottleneck in the Transformer for Image Captioning

要約

最新のアーキテクチャは、畳み込み、再帰、自己注意の 3 つのアプローチの組み合わせとバリエーションに依存しています。
私たちの研究は、配列の長さを変更するという考えに基づいた配列モデリングの新しい研究方向の基礎を築くことを試みています。
これを行うために、入力シーケンスを動的または静的に異なるシーケンス長を特徴とする新しいものに変換する「拡張メカニズム」と呼ばれる新しい方法を提案します。
さらに、そのような方法を活用し、MS-COCO 2014 データセットで競争力のあるパフォーマンスを達成する新しいアーキテクチャを導入し、アンサンブルおよび単一モデル構成の Karpathy テスト分割でそれぞれ 134.6 および 131.4 CIDEr-D、および 130 CIDEr-D を生成します。
定期的でも十分に注意を払っているわけでもないにもかかわらず、公式のオンライン評価サーバー。
同時に、設計の効率面に取り組み、標準的なものとは対照的に、ほとんどの計算リソースに適した便利なトレーニング戦略を導入します。
ソース コードは https://github.com/jchenghu/ExpansionNet で入手できます。

要約(オリジナル)

Most recent state of art architectures rely on combinations and variations of three approaches: convolutional, recurrent and self-attentive methods. Our work attempts in laying the basis for a new research direction for sequence modeling based upon the idea of modifying the sequence length. In order to do that, we propose a new method called ‘Expansion Mechanism’ which transforms either dynamically or statically the input sequence into a new one featuring a different sequence length. Furthermore, we introduce a novel architecture that exploits such method and achieves competitive performances on the MS-COCO 2014 data set, yielding 134.6 and 131.4 CIDEr-D on the Karpathy test split in the ensemble and single model configuration respectively and 130 CIDEr-D in the official online evaluation server, despite being neither recurrent nor fully attentive. At the same time we address the efficiency aspect in our design and introduce a convenient training strategy suitable for most computational resources in contrast to the standard one. Source code is available at https://github.com/jchenghu/ExpansionNet

arxiv情報

著者 Jia Cheng Hu,Roberto Cavicchioli,Alessandro Capotondi
発行日 2022-10-14 16:38:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク