OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling

要約

視覚と言語を個別にエンコードするという制約があるため、既存のグラウンディングおよび参照セグメンテーションの作業は、かさばる Transformer ベースのフュージョン エン/デコーダおよびさまざまな初期段階のインタラクション テクノロジに大きく依存しています。
同時に、現在のマスク視覚言語モデリング (MVLM) は、参照タスクにおける画像とテキストの間の微妙な参照関係を捉えることができません。
この論文では、視覚的特徴空間と言語的特徴空間を統合するモダリティ共有ワンタワー変換器上に構築されたミニマリスト参照フレームワークである OneRef を提案します。
参照関係をモデル化するために、マスク参照モデリング (MRefM) と呼ばれる新しい MVLM パラダイムを導入します。これには、参照を意識したマスク イメージ モデリングと参照を意識したマスク言語モデリングの両方が含まれます。
どちらのモジュールも、モダリティ関連のコンテンツだけでなく、クロスモーダル参照コンテンツも再構築します。
MRefM 内では、固定比率や一般的なランダム マスキング スキームに依存するのではなく、参照領域を認識する、参照を意識した動的画像マスキング戦略を提案します。
統一されたビジュアル言語特徴空間を活用し、参照関係をモデル化する MRefM の機能を組み込むことにより、私たちのアプローチは、さまざまな複雑な手法に頼ることなく、参照結果の直接回帰を可能にします。
私たちの手法は一貫して既存のアプローチを上回り、グラウンディングタスクとセグメンテーションタスクの両方でSoTAのパフォーマンスを達成し、将来の研究に貴重な洞察を提供します。
コードとモデルは https://github.com/linhuixiao/OneRef で入手できます。

要約(オリジナル)

Constrained by the separate encoding of vision and language, existing grounding and referring segmentation works heavily rely on bulky Transformer-based fusion en-/decoders and a variety of early-stage interaction technologies. Simultaneously, the current mask visual language modeling (MVLM) fails to capture the nuanced referential relationship between image-text in referring tasks. In this paper, we propose OneRef, a minimalist referring framework built on the modality-shared one-tower transformer that unifies the visual and linguistic feature spaces. To modeling the referential relationship, we introduce a novel MVLM paradigm called Mask Referring Modeling (MRefM), which encompasses both referring-aware mask image modeling and referring-aware mask language modeling. Both modules not only reconstruct modality-related content but also cross-modal referring content. Within MRefM, we propose a referring-aware dynamic image masking strategy that is aware of the referred region rather than relying on fixed ratios or generic random masking schemes. By leveraging the unified visual language feature space and incorporating MRefM’s ability to model the referential relations, our approach enables direct regression of the referring results without resorting to various complex techniques. Our method consistently surpasses existing approaches and achieves SoTA performance on both grounding and segmentation tasks, providing valuable insights for future research. Our code and models are available at https://github.com/linhuixiao/OneRef.

arxiv情報

著者 Linhui Xiao,Xiaoshan Yang,Fang Peng,Yaowei Wang,Changsheng Xu
発行日 2024-10-25 16:25:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク