Composing Object Relations and Attributes for Image-Text Matching

要約

画像とテキストのマッチングのための視覚的意味埋め込み問題を研究します。
既存の作業のほとんどは、調整されたクロスアテンション メカニズムを利用して、2 つの画像とテキストのモダリティ全体でローカルな位置合わせを実行します。
これは、ユニモーダル デュアル エンコーダ アプローチよりも強力ではあるものの、計算コストが高くなります。
この研究では、デュアル エンコーダの画像とテキストのマッチング モデルを導入し、シーン グラフを活用して、リレーショナル エッジによって相互接続されたオブジェクトと属性のノードを持つキャプションを表現します。
グラフ アテンション ネットワークを利用することで、私たちのモデルはオブジェクトと属性およびオブジェクトとオブジェクトの意味関係を効率的にエンコードし、堅牢で高速に実行されるシステムを実現します。
キャプションをシーン グラフとして表現すると、グラフ ニューラル ネットワークの強い関係誘導バイアスを利用して、オブジェクトと属性およびオブジェクトとオブジェクトの関係を効果的に学習できるようになります。
モデルをトレーニングするために、全体レベル (画像キャプション) とローカル レベル (画像オブジェクト エンティティ) の両方で画像とキャプションを位置合わせする損失を提案します。これがモデルの成功の鍵であることを示します。
私たちのモデルは、オブジェクト関係と属性の構成モデル (CORA) と呼ばれています。
2 つの著名な画像テキスト検索ベンチマーク、Flickr30K と MSCOCO での実験結果は、CORA が、デュアル エンコーダーの高速計算速度を達成しながら、再現スコアに関して、計算コストのかかる既存の最先端のクロスアテンション手法よりも優れていることを示しています。

要約(オリジナル)

We study the visual semantic embedding problem for image-text matching. Most existing work utilizes a tailored cross-attention mechanism to perform local alignment across the two image and text modalities. This is computationally expensive, even though it is more powerful than the unimodal dual-encoder approach. This work introduces a dual-encoder image-text matching model, leveraging a scene graph to represent captions with nodes for objects and attributes interconnected by relational edges. Utilizing a graph attention network, our model efficiently encodes object-attribute and object-object semantic relations, resulting in a robust and fast-performing system. Representing caption as a scene graph offers the ability to utilize the strong relational inductive bias of graph neural networks to learn object-attribute and object-object relations effectively. To train the model, we propose losses that align the image and caption both at the holistic level (image-caption) and the local level (image-object entity), which we show is key to the success of the model. Our model is termed Composition model for Object Relations and Attributes, CORA. Experimental results on two prominent image-text retrieval benchmarks, Flickr30K and MSCOCO, demonstrate that CORA outperforms existing state-of-the-art computationally expensive cross-attention methods regarding recall score while achieving fast computation speed of the dual encoder.

arxiv情報

著者 Khoi Pham,Chuong Huynh,Ser-Nam Lim,Abhinav Shrivastava
発行日 2024-06-17 17:56:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク