要約
マルチモーダル分野において、視覚と言語を統合する鍵は、適切な調整戦略を確立することにあります。
最近、自己教師あり学習の成功の恩恵を受けて、視覚と言語の事前トレーニングされたモデルに基づくマルチモーダル意味表現において大きな進歩が見られました。
ただし、視覚的な意味表現にはまだ改善の余地があります。
空間的意味論的一貫性の欠如とノイズに対する脆弱性により、現在のピクセルまたはパッチベースの方法では複雑なシーンの境界を正確に抽出することが困難になっています。
この目的を達成するために、この論文は、学習可能な画像データの包括的でコンパクトな表現としてスーパーピクセルを開発します。これは、知覚的に類似したピクセルをクラスター化することにより、後続の処理のための視覚プリミティブの数を効果的に削減します。
より正確なトポロジー関係をマイニングするために、マルチスケール差分グラフ畳み込みネットワーク (MDGCN) を提案します。
画像全体を構成視覚パターンの細かいから粗い階層構造として解析し、隣接するスーパーピクセルをグラフ ノードとして徐々にマージすることでマルチスケールの特徴をキャプチャします。
さらに、グラフ構造を通じて隣接するノード間の差異を予測し、実際の意味関係を推論するためのグラフ ノードの重要な情報の集約を容易にします。
その後、異なる地域スケールで相補的な空間情報を学習することで理解の逸脱を回避するために、ボトムアップ方式でマルチレベル融合ルールを設計します。
私たちの提案した方法は、複数の下流タスク学習にうまく適用できます。
広範な実験により、私たちの方法が視覚的推論において他の最先端の方法と競合できることが実証されました。
私たちのコードは公開され次第公開されます。
要約(オリジナル)
Within the multimodal field, the key to integrating vision and language lies in establishing a good alignment strategy. Recently, benefiting from the success of self-supervised learning, significant progress has been made in multimodal semantic representation based on pre-trained models for vision and language. However, there is still room for improvement in visual semantic representation. The lack of spatial semantic coherence and vulnerability to noise makes it challenging for current pixel or patch-based methods to accurately extract complex scene boundaries. To this end, this paper develops superpixel as a comprehensive compact representation of learnable image data, which effectively reduces the number of visual primitives for subsequent processing by clustering perceptually similar pixels. To mine more precise topological relations, we propose a Multiscale Difference Graph Convolutional Network (MDGCN). It parses the entire image as a fine-to-coarse hierarchical structure of constituent visual patterns, and captures multiscale features by progressively merging adjacent superpixels as graph nodes. Moreover, we predict the differences between adjacent nodes through the graph structure, facilitating key information aggregation of graph nodes to reason actual semantic relations. Afterward, we design a multi-level fusion rule in a bottom-up manner to avoid understanding deviation by learning complementary spatial information at different regional scales. Our proposed method can be well applied to multiple downstream task learning. Extensive experiments demonstrate that our method is competitive with other state-of-the-art methods in visual reasoning. Our code will be released upon publication.
arxiv情報
著者 | Siyu Zhang,Yeming Chen,Sirui Cheng,Yaoru Sun,Jun Yang,Lizhi Bai |
発行日 | 2023-10-25 13:14:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google