Hierarchical Alignment-enhanced Adaptive Grounding Network for Generalized Referring Expression Comprehension

要約

本研究では、一般化された参照表現理解(GREC)という困難な課題に取り組む。単一ターゲット表現に焦点を当てた古典的な参照表現理解(REC)と比較して、GRECはさらに非ターゲット表現とマルチターゲット表現を包含することで、より実用的な設定に範囲を拡張する。既存のREC手法は、GRECで遭遇する複雑なケースを扱う上で、主にその固定的な出力とマルチモーダル表現の限界による課題に直面している。これらの問題に対処するため、我々はGRECのための階層的整列強化適応接地ネットワーク(HieA2G)を提案し、様々なタイプの参照表現に柔軟に対応できるようにする。まず、単語-オブジェクト、フレーズ-オブジェクト、テキスト-画像の3段階のアライメントを組み込んだ階層的マルチモーダル意味アライメント(HMSA)モジュールを提案する。HMSAは、マルチモーダルな理解を達成するために、複数のレベルにまたがる階層的なクロスモーダルな相互作用を可能にし、複雑なケースに対するグラウンディング能力を大幅に向上させる。次に、GRECにおけるターゲットオブジェクトの数の変化に対応するため、適応的グラウンディングカウンター(AGC)を導入し、出力ターゲット数を動的に決定する。さらに、AGCには補助的なコントラスト損失が採用され、同じ計数値を持つマルチモーダル特徴量を引き込み、異なる計数値を持つ特徴量を押しのけることで、物体計数能力を向上させる。広範な実験結果から、HieA2Gは、難易度の高いGRECタスクや、REC、フレーズグラウンディング、参照表現分割(RES)、一般化参照表現分割(GRES)を含む他の4タスクにおいて、最先端の性能を達成し、提案するHieA2Gの顕著な優位性と汎用性を実証した。

要約(オリジナル)

In this work, we address the challenging task of Generalized Referring Expression Comprehension (GREC). Compared to the classic Referring Expression Comprehension (REC) that focuses on single-target expressions, GREC extends the scope to a more practical setting by further encompassing no-target and multi-target expressions. Existing REC methods face challenges in handling the complex cases encountered in GREC, primarily due to their fixed output and limitations in multi-modal representations. To address these issues, we propose a Hierarchical Alignment-enhanced Adaptive Grounding Network (HieA2G) for GREC, which can flexibly deal with various types of referring expressions. First, a Hierarchical Multi-modal Semantic Alignment (HMSA) module is proposed to incorporate three levels of alignments, including word-object, phrase-object, and text-image alignment. It enables hierarchical cross-modal interactions across multiple levels to achieve comprehensive and robust multi-modal understanding, greatly enhancing grounding ability for complex cases. Then, to address the varying number of target objects in GREC, we introduce an Adaptive Grounding Counter (AGC) to dynamically determine the number of output targets. Additionally, an auxiliary contrastive loss is employed in AGC to enhance object-counting ability by pulling in multi-modal features with the same counting and pushing away those with different counting. Extensive experimental results show that HieA2G achieves new state-of-the-art performance on the challenging GREC task and also the other 4 tasks, including REC, Phrase Grounding, Referring Expression Segmentation (RES), and Generalized Referring Expression Segmentation (GRES), demonstrating the remarkable superiority and generalizability of the proposed HieA2G.

arxiv情報

著者 Yaxian Wang,Henghui Ding,Shuting He,Xudong Jiang,Bifan Wei,Jun Liu
発行日 2025-01-02 18:57:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク