Where is my Wallet? Modeling Object Proposal Sets for Egocentric Visual Query Localization

要約

タイトル: 「私の財布はどこ?」エゴセントリックな視覚問い合わせのためのオブジェクト提案セットのモデリング

要約:

– この論文では、視覚的な例から画像やビデオのデータセット内のオブジェクトをローカリゼーションする問題に取り組みます。
– 特に、私たちはエゴセントリックな視覚問い合わせの課題に焦点を当てています。
– 現在のクエリに関連するモデル設計と視覚的なクエリデータセットに存在する深刻な暗黙のバイアスを最初に特定し、そのバイアスに直接取り組みます。
– 具体的には、限られた注釈を拡張し、トレーニング中にオブジェクト提案を動的にドロップすることでこれらの問題を解決する方法を提供します。
– さらに、オブジェクト提案セットのコンテキストを考慮しながらクエリ情報を組み込むことができる新しいトランスフォーマベースのモジュールを提案します。このモジュールをConditioned Contextual TransformerまたはCocoFormerと名付けました。
– 実験により、提案された適応がエゴセントリックな問い合わせの検出性能を改善し、2Dおよび3D構成の両方でより良い視覚問い合わせローカリゼーションシステムにつながることが示されています。
– したがって、APでフレームレベルの検出性能を26.28%から31.26に向上させることができ、それに対応してVQ2DおよびVQ3Dのローカリゼーションスコアが大幅に向上しました。
– 私たちの改善されたコンテキストに基づくクエリオブジェクト検出器は、第2回Ego4DチャレンジのVQ2DおよびVQ3Dタスクで1番と2番のランキングを獲得しました。
– さらに、私たちはFew-Shot Detection(FSD)タスクで提案されたモデルの関連性を紹介し、SOTAの結果を達成しました。
– 私たちのコードは、https://github.com/facebookresearch/vq2d_cvprで利用可能です。

要約(オリジナル)

This paper deals with the problem of localizing objects in image and video datasets from visual exemplars. In particular, we focus on the challenging problem of egocentric visual query localization. We first identify grave implicit biases in current query-conditioned model design and visual query datasets. Then, we directly tackle such biases at both frame and object set levels. Concretely, our method solves these issues by expanding limited annotations and dynamically dropping object proposals during training. Additionally, we propose a novel transformer-based module that allows for object-proposal set context to be considered while incorporating query information. We name our module Conditioned Contextual Transformer or CocoFormer. Our experiments show the proposed adaptations improve egocentric query detection, leading to a better visual query localization system in both 2D and 3D configurations. Thus, we are able to improve frame-level detection performance from 26.28% to 31.26 in AP, which correspondingly improves the VQ2D and VQ3D localization scores by significant margins. Our improved context-aware query object detector ranked first and second in the VQ2D and VQ3D tasks in the 2nd Ego4D challenge. In addition to this, we showcase the relevance of our proposed model in the Few-Shot Detection (FSD) task, where we also achieve SOTA results. Our code is available at https://github.com/facebookresearch/vq2d_cvpr.

arxiv情報

著者 Mengmeng Xu,Yanghao Li,Cheng-Yang Fu,Bernard Ghanem,Tao Xiang,Juan-Manuel Perez-Rua
発行日 2023-04-06 09:21:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク