Masked Multi-Query Slot Attention for Unsupervised Object Discovery

要約

教師なし物体発見は、セマンティック セグメンテーションや物体検出など、画像をエンティティに分解する必要がある認識問題に取り組むための重要な研究分野になりつつあります。
最近では、自己監視を活用したオブジェクト中心の手法が、そのシンプルさとさまざまな設定や条件への適応性により人気を集めています。
ただし、これらの方法は、現代の自己監視型アプローチですでに採用されている効果的な手法を活用していません。
この研究では、DINO ViT の特徴がスロットと呼ばれるクエリされた表現のセットを介して再構築されるオブジェクト中心のアプローチを検討します。
これに基づいて、背景領域を選択的に無視する入力フィーチャのマスキング スキームを提案し、再構成フェーズ中にモデルが顕著なオブジェクトにさらに焦点を当てるようにします。
さらに、スロット アテンションをマルチクエリ アプローチに拡張し、モデルが複数のスロット セットを学習できるようにして、より安定したマスクを生成します。
トレーニング中に、これらの複数のスロットのセットは個別に学習されますが、テスト時には、これらのセットはハンガリアン マッチングによってマージされ、最終的なスロットが取得されます。
PASCAL-VOC 2012 データセットの実験結果とアブレーションは、各コンポーネントの重要性を示し、それらの組み合わせがオブジェクトの位置特定を一貫して改善する方法を強調しています。
私たちのソースコードは、https://github.com/rishavpramanik/maskedmultiqueryslot から入手できます。

要約(オリジナル)

Unsupervised object discovery is becoming an essential line of research for tackling recognition problems that require decomposing an image into entities, such as semantic segmentation and object detection. Recently, object-centric methods that leverage self-supervision have gained popularity, due to their simplicity and adaptability to different settings and conditions. However, those methods do not exploit effective techniques already employed in modern self-supervised approaches. In this work, we consider an object-centric approach in which DINO ViT features are reconstructed via a set of queried representations called slots. Based on that, we propose a masking scheme on input features that selectively disregards the background regions, inducing our model to focus more on salient objects during the reconstruction phase. Moreover, we extend the slot attention to a multi-query approach, allowing the model to learn multiple sets of slots, producing more stable masks. During training, these multiple sets of slots are learned independently while, at test time, these sets are merged through Hungarian matching to obtain the final slots. Our experimental results and ablations on the PASCAL-VOC 2012 dataset show the importance of each component and highlight how their combination consistently improves object localization. Our source code is available at: https://github.com/rishavpramanik/maskedmultiqueryslot

arxiv情報

著者 Rishav Pramanik,José-Fabian Villa-Vásquez,Marco Pedersoli
発行日 2024-04-30 15:51:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク