Self-Supervised Learning for Visual Relationship Detection through Masked Bounding Box Reconstruction

要約

我々は、表現学習、特に視覚的関係検出 (VRD) のタスクのための新しい自己教師ありアプローチを提案します。
マスク イメージ モデリング (MIM) の有効性を動機として、シーン内のエンティティ/オブジェクトの一部がマスクされ、その後マスクされていないオブジェクトに基づいて再構築される MIM のバリエーションであるマスク バウンディング ボックス再構築 (MBBR) を提案します。
中心的なアイデアは、オブジェクト レベルのマスクされたモデリングを通じて、ネットワークがシーン内のオブジェクトの相互作用をキャプチャするコンテキスト認識表現を学習するため、視覚的なオブジェクトの関係を高度に予測できるということです。
私たちは、数ショット設定で学習された表現を定性的および定量的に広範に評価し、特に VRD 向けに調整された堅牢な視覚表現を学習するための MBBR の有効性を実証します。
提案された手法は、少数のアノテーション付きサンプルのみを使用して、述語検出 (PredDet) 評価設定において最先端の VRD 手法を上回ることができます。
コードは https://github.com/deeplab-ai/SelfSupervisedVRD で公開しています。

要約(オリジナル)

We present a novel self-supervised approach for representation learning, particularly for the task of Visual Relationship Detection (VRD). Motivated by the effectiveness of Masked Image Modeling (MIM), we propose Masked Bounding Box Reconstruction (MBBR), a variation of MIM where a percentage of the entities/objects within a scene are masked and subsequently reconstructed based on the unmasked objects. The core idea is that, through object-level masked modeling, the network learns context-aware representations that capture the interaction of objects within a scene and thus are highly predictive of visual object relationships. We extensively evaluate learned representations, both qualitatively and quantitatively, in a few-shot setting and demonstrate the efficacy of MBBR for learning robust visual representations, particularly tailored for VRD. The proposed method is able to surpass state-of-the-art VRD methods on the Predicate Detection (PredDet) evaluation setting, using only a few annotated samples. We make our code available at https://github.com/deeplab-ai/SelfSupervisedVRD.

arxiv情報

著者 Zacharias Anastasakis,Dimitrios Mallis,Markos Diomataris,George Alexandridis,Stefanos Kollias,Vassilis Pitsikalis
発行日 2023-11-08 16:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク