要約
きめの細かい対応と視覚的セマンティック アラインメントを活用することで、画像とテキストのマッチングに大きな可能性が示されました。
一般に、最近のアプローチでは、最初にクロスモーダル注意ユニットを使用して潜在的な領域と単語の相互作用をキャプチャし、次にすべてのアライメントを統合して最終的な類似性を取得します。
ただし、それらのほとんどは、ネットワーク フィードバックの調整機能を無視しながら、複雑なアーキテクチャまたは追加情報を使用して、1 回限りのフォワード アソシエーションまたはアグリゲーション戦略を採用しています。
この論文では、メッセージ出力を効率的にエンコードして、クロスモーダル表現を自動的にコンテキスト化し、集約する 2 つのシンプルだが非常に効果的なレギュレーターを開発します。
具体的には、(i) より柔軟な対応を捉えるために、適応的アテンション ファクターを使用してクロスモーダル アテンション ユニットを徐々に促進する Recurrent Correspondence Regulator (RCR) と、(ii) アグリゲーションの重みを繰り返し調整する Recurrent Aggregation Regulator (RAR) を提案します。
重要なアラインメントをますます強調し、重要でないアラインメントを薄めます。
さらに、RCR と RAR がプラグアンドプレイであることは興味深いことです。どちらもクロスモーダルな相互作用に基づいて多くのフレームワークに組み込むことができ、大きな利点が得られ、それらの連携によりさらなる改善が達成されます。
MSCOCO および Flickr30K データセットでの広範な実験により、複数のモデルで印象的かつ一貫した R@1 ゲインをもたらすことができることが検証され、提案された方法の一般的な有効性と一般化能力が確認されました。
コードと事前トレーニング済みのモデルは、https://github.com/Paranioar/RCAR で入手できます。
要約(オリジナル)
Exploiting fine-grained correspondence and visual-semantic alignments has shown great potential in image-text matching. Generally, recent approaches first employ a cross-modal attention unit to capture latent region-word interactions, and then integrate all the alignments to obtain the final similarity. However, most of them adopt one-time forward association or aggregation strategies with complex architectures or additional information, while ignoring the regulation ability of network feedback. In this paper, we develop two simple but quite effective regulators which efficiently encode the message output to automatically contextualize and aggregate cross-modal representations. Specifically, we propose (i) a Recurrent Correspondence Regulator (RCR) which facilitates the cross-modal attention unit progressively with adaptive attention factors to capture more flexible correspondence, and (ii) a Recurrent Aggregation Regulator (RAR) which adjusts the aggregation weights repeatedly to increasingly emphasize important alignments and dilute unimportant ones. Besides, it is interesting that RCR and RAR are plug-and-play: both of them can be incorporated into many frameworks based on cross-modal interaction to obtain significant benefits, and their cooperation achieves further improvements. Extensive experiments on MSCOCO and Flickr30K datasets validate that they can bring an impressive and consistent R@1 gain on multiple models, confirming the general effectiveness and generalization ability of the proposed methods. Code and pre-trained models are available at: https://github.com/Paranioar/RCAR.
arxiv情報
著者 | Haiwen Diao,Ying Zhang,Wei Liu,Xiang Ruan,Huchuan Lu |
発行日 | 2023-03-23 15:42:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google