Multimodal Query-guided Object Localization

要約

オブジェクトの画像もオブジェクト カテゴリ名もクエリとして使用できない、ワンショット クエリ ガイド オブジェクト ローカリゼーションのシナリオを考えてみましょう。
このようなシナリオでは、オブジェクトの手描きのスケッチがクエリの選択肢になる可能性があります。
ただし、手描きの大まかなスケッチだけをクエリとして使用すると、オブジェクトのローカライゼーションがあいまいになる可能性があります。たとえば、ラップトップのスケッチがソファと混同される可能性があります。
一方、カテゴリの言語的定義 (たとえば、膝の上で使用するのに十分小さい小型のポータブル コンピューター) とスケッチ クエリを組み合わせることで、オブジェクトのローカリゼーションの視覚的および意味的な手がかりが得られます。
この作業では、挑戦的なオープン セットの設定の下でマルチモーダル クエリ ガイド付きオブジェクト ローカリゼーション アプローチを提示します。
具体的には、手描きのスケッチとオブジェクトの説明 (グロスとも呼ばれます) の 2 つのモダリティからのクエリを使用して、オブジェクトのローカリゼーションを実行します。
マルチモーダルなクエリガイドによるオブジェクトのローカリゼーションは、特にクエリと自然画像の間に大きなドメインギャップが存在する場合、およびクエリ全体に存在する補完的で最小限の情報を組み合わせるという課題のために、困難な作業です。
たとえば、手描きの大まかなスケッチにはオブジェクトの抽象的な形状情報が含まれていますが、テキストの説明には、特定のオブジェクト カテゴリに関する部分的な意味情報が含まれていることがよくあります。
前述の課題に対処するために、入力クエリに関連するオブジェクト提案を生成するように領域提案ネットワークを導く新しいクロスモーダル注意スキームと、クエリに関して各提案をスコアリングする新しい直交射影ベースの提案スコアリング手法を提示します。
これにより、最終的なローカリゼーション結果が得られます。

要約(オリジナル)

Consider a scenario in one-shot query-guided object localization where neither an image of the object nor the object category name is available as a query. In such a scenario, a hand-drawn sketch of the object could be a choice for a query. However, hand-drawn crude sketches alone, when used as queries, might be ambiguous for object localization, e.g., a sketch of a laptop could be confused for a sofa. On the other hand, a linguistic definition of the category, e.g., a small portable computer small enough to use in your lap’ along with the sketch query, gives better visual and semantic cues for object localization. In this work, we present a multimodal query-guided object localization approach under the challenging open-set setting. In particular, we use queries from two modalities, namely, hand-drawn sketch and description of the object (also known as gloss), to perform object localization. Multimodal query-guided object localization is a challenging task, especially when a large domain gap exists between the queries and the natural images, as well as due to the challenge of combining the complementary and minimal information present across the queries. For example, hand-drawn crude sketches contain abstract shape information of an object, while the text descriptions often capture partial semantic information about a given object category. To address the aforementioned challenges, we present a novel cross-modal attention scheme that guides the region proposal network to generate object proposals relevant to the input queries and a novel orthogonal projection-based proposal scoring technique that scores each proposal with respect to the queries, thereby yielding the final localization results. …

arxiv情報

著者 Aditay Tripathi,Rajath R Dani,Anand Mishra,Anirban Chakraborty
発行日 2022-12-01 18:35:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク