Adaptively Clustering Neighbor Elements for Image Captioning

要約

我々は、キャプションを生成するための新しいグローバル-ローカル変換器である \textbf{Ada-ClustFormer} (略称ACF)を設計しています。ACFの各層は、入力要素を適応的にクラスタリングして、局所文脈を学習するための自己注意(Self-ATT)を運ぶことができるので、この名前を使用しています。ACFは、他のグローバルローカル変換器のように固定サイズのウィンドウでSelf-ATTを行うのではなく、様々な粒度、例えば、オブジェクトが異なるグリッド数をカバーする場合や、フレーズが多様な数の単語を含む場合にも対応することができます。ACFを構築するために、Self-ATT層に確率行列Cを挿入する。入力シーケンス{{s}_1,…,{s}_N に対して、C_{i,j}は、サブシーケンス{s_i,…,s_j}をSelf-ATTを運ぶためにクラスタ化すべきかどうかをソフト的に決定する。実装にあたっては、{C}_{i,j}は{{s}_i,…,{s}_j}のコンテキストから計算されるので、ACFはどのローカルコンテキストを学習すべきかを決めるために入力そのものを利用することができます。ACFを用いて視覚エンコーダと言語デコーダを構築することで、キャプションモデルは視覚と言語の両方で隠れた構造を自動的に発見でき、より多くの構造的共通性を転送するための統一的な構造空間を学習することを促進する。実験結果は、CIDEr 137.8を達成し、ほとんどのSOTAキャプションモデルを上回り、いくつかのBERTベースのモデルと比較して同等のスコアを達成し、ACFの有効性を実証しています。コードは補足資料で公開する予定である。

要約(オリジナル)

We design a novel global-local Transformer named \textbf{Ada-ClustFormer} (\textbf{ACF}) to generate captions. We use this name since each layer of ACF can adaptively cluster input elements to carry self-attention (Self-ATT) for learning local context. Compared with other global-local Transformers which carry Self-ATT in fixed-size windows, ACF can capture varying graininess, \eg, an object may cover different numbers of grids or a phrase may contain diverse numbers of words. To build ACF, we insert a probabilistic matrix C into the Self-ATT layer. For an input sequence {{s}_1,…,{s}_N , C_{i,j} softly determines whether the sub-sequence {s_i,…,s_j} should be clustered for carrying Self-ATT. For implementation, {C}_{i,j} is calculated from the contexts of {{s}_i,…,{s}_j}, thus ACF can exploit the input itself to decide which local contexts should be learned. By using ACF to build the vision encoder and language decoder, the captioning model can automatically discover the hidden structures in both vision and language, which encourages the model to learn a unified structural space for transferring more structural commonalities. The experiment results demonstrate the effectiveness of ACF that we achieve CIDEr of 137.8, which outperforms most SOTA captioning models and achieve comparable scores compared with some BERT-based models. The code will be available in the supplementary material.

arxiv情報

著者 Zihua Wang,Xu Yang,Haiyang Xu,Hanwang Zhang,Chenliang Li,Songfang Huang,Fei Huang,Yu Zhang
発行日 2023-01-05 08:37:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク