Visual Dependency Transformers: Dependency Tree Emerges from Reversed Attention

要約

タイトル:Visual Dependency Transformers:逆注意から依存ツリーが出現
要約:人間は視覚的世界の構造化表現を抽出するための多目的なメカニズムを持っています。画像を見るとき、私たちはシーンをエンティティとその部分に分解することができ、そしてそれらの間の依存関係を得ることができます。そのような能力を模倣するために、Visual Dependency Transformers(DependencyViT)を提案し、任意のラベルなしで視覚的な依存関係を誘導できるようにします。我々は、画像パッチ間の長距離の視覚的な依存関係を自然にキャプチャできる新しいニューラルオペレータである「逆アテンション」で実現しています。具体的には、逆注意では子トークンは親トークンに注意し、正規化された確率分布に従って情報を送信することが通常の自己注意では情報を収集することなくフォームされます。このような設計により、階層構造が逆注意層から自然に現れ、葉ノードからルートノードに自己学習的に依存関係ツリーが誘導されます。

要点:
– 人間は、画像をエンティティとその部分に分解することができ、それらの間の依存関係を得ることができます。
– 研究者らは、任意のラベルなしで視覚的な依存関係を誘導できるVisual Dependency Transformers(DependencyViT)を提案しています。
– 逆アテンションは、長距離の視覚的な依存関係を自然にキャプチャする新しいニューラルオペレータです。
– 逆注意により、階層構造が逆注意層から自然に現れ、葉ノードからルートノードに自己学習的に依存関係ツリーが誘導されます。
– DependencyViTには、魅力的な利点がいくつかあります。それらは、エンティティとその部分が異なるサブツリーで表されるため、部分分割が依存関係から可能になります。
– DependencyViTは、ImageNetの自己学習および弱い監督学習パラダイムの両方でうまく機能し、非監視の部分分割とサリエンシーセグメンテーション、認識、検出など、8つのデータセットと5つのタスクで効果を発揮します。

要約(オリジナル)

Humans possess a versatile mechanism for extracting structured representations of our visual world. When looking at an image, we can decompose the scene into entities and their parts as well as obtain the dependencies between them. To mimic such capability, we propose Visual Dependency Transformers (DependencyViT) that can induce visual dependencies without any labels. We achieve that with a novel neural operator called \emph{reversed attention} that can naturally capture long-range visual dependencies between image patches. Specifically, we formulate it as a dependency graph where a child token in reversed attention is trained to attend to its parent tokens and send information following a normalized probability distribution rather than gathering information in conventional self-attention. With such a design, hierarchies naturally emerge from reversed attention layers, and a dependency tree is progressively induced from leaf nodes to the root node unsupervisedly. DependencyViT offers several appealing benefits. (i) Entities and their parts in an image are represented by different subtrees, enabling part partitioning from dependencies; (ii) Dynamic visual pooling is made possible. The leaf nodes which rarely send messages can be pruned without hindering the model performance, based on which we propose the lightweight DependencyViT-Lite to reduce the computational and memory footprints; (iii) DependencyViT works well on both self- and weakly-supervised pretraining paradigms on ImageNet, and demonstrates its effectiveness on 8 datasets and 5 tasks, such as unsupervised part and saliency segmentation, recognition, and detection.

arxiv情報

著者 Mingyu Ding,Yikang Shen,Lijie Fan,Zhenfang Chen,Zitian Chen,Ping Luo,Joshua B. Tenenbaum,Chuang Gan
発行日 2023-04-06 17:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク