ExpansionNet: exploring the sequence length bottleneck in the Transformer for Image Captioning

要約

最新のアーキテクチャは、畳み込み、反復、および自己注意型の3つのアプローチの組み合わせとバリエーションに依存しています。
私たちの仕事は、シーケンスの長さを変更するという考えに基づいて、シーケンスモデリングの新しい研究の方向性の基礎を築くことを試みています。
そのために、入力シーケンスを動的または静的に異なるシーケンス長を特徴とする新しいものに変換する「拡張メカニズム」と呼ばれる新しい方法を提案します。
さらに、このような方法を活用し、MS-COCO 2014データセットで競争力のあるパフォーマンスを実現する新しいアーキテクチャを紹介します。アンサンブルと単一モデルの構成で分割されたKarpathyテストでそれぞれ134.6と131.4のCIDEr-Dを生成し、130のCIDEr-Dを生成します。
定期的でも完全に注意深いものでもないにもかかわらず、公式のオンラインテストサーバー。
同時に、設計の効率性の側面に取り組み、標準的なものとは対照的に、ほとんどの計算リソースに適した便利なトレーニング戦略を導入します。
ソースコードはhttps://github.com/jchenghu/ExpansionNetで入手できます。

要約(オリジナル)

Most recent state of art architectures rely on combinations and variations of three approaches: convolutional, recurrent and self-attentive methods. Our work attempts in laying the basis for a new research direction for sequence modeling based upon the idea of modifying the sequence length. In order to do that, we propose a new method called “Expansion Mechanism” which transforms either dynamically or statically the input sequence into a new one featuring a different sequence length. Furthermore, we introduce a novel architecture that exploits such method and achieves competitive performances on the MS-COCO 2014 data set, yielding 134.6 and 131.4 CIDEr-D on the Karpathy test split in the ensemble and single model configuration respectively and 130 CIDEr-D in the official online testing server, despite being neither recurrent nor fully attentive. At the same time we address the efficiency aspect in our design and introduce a convenient training strategy suitable for most computational resources in contrast to the standard one. Source code is available at https://github.com/jchenghu/ExpansionNet

arxiv情報

著者 Jia Cheng Hu
発行日 2022-07-07 14:37:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク