On Utilizing Relationships for Transferable Few-Shot Fine-Grained Object Detection

要約

最先端のオブジェクト検出器は高速で正確ですが、優れたパフォーマンスを得るには、十分に注釈が付けられた大量のトレーニング データが必要です。
ただし、特定のタスクに固有の大量のトレーニング アノテーション、つまり粒度の細かいアノテーションを取得することは、実際にはコストがかかります。
対照的に、「テーブルランプはテーブルの上にあるランプです」などのテキストから常識的な関係を取得するのははるかに簡単です。
さらに、「on-top-of」のような常識的な関係は、タスクにとらわれない方法で簡単に注釈を付けることができます。
この論文では、このような関係知識を使用して、粗いオブジェクト カテゴリ (「テーブル」、「ランプ」など) の市販の検出器を、きめの細かいカテゴリ (「テーブル」など) の検出器に変換する確率モデルを提案します。
電気スタンド’)。
私たちの方法である RelDetect は、微調整に基づく最先端のオブジェクト検出器のベースラインに匹敵するパフォーマンスを達成することを示しています。
また、RelDetect が関係情報の固有の転送可能性を利用して、目に見えないデータセット (ゼロ ショット転送) の上記のベースラインよりも優れたパフォーマンス ($+5$ mAP ポイント) を取得できることも示します。
要約すると、適切な関係を介して細粒度のオブジェクト カテゴリを粗粒度のカテゴリにリンクできるデータセットでのオブジェクト検出に関係を使用することの威力を示します。

要約(オリジナル)

State-of-the-art object detectors are fast and accurate, but they require a large amount of well annotated training data to obtain good performance. However, obtaining a large amount of training annotations specific to a particular task, i.e., fine-grained annotations, is costly in practice. In contrast, obtaining common-sense relationships from text, e.g., ‘a table-lamp is a lamp that sits on top of a table’, is much easier. Additionally, common-sense relationships like ‘on-top-of’ are easy to annotate in a task-agnostic fashion. In this paper, we propose a probabilistic model that uses such relational knowledge to transform an off-the-shelf detector of coarse object categories (e.g., ‘table’, ‘lamp’) into a detector of fine-grained categories (e.g., ‘table-lamp’). We demonstrate that our method, RelDetect, achieves performance competitive to finetuning based state-of-the-art object detector baselines when an extremely low amount of fine-grained annotations is available ($0.2\%$ of entire dataset). We also demonstrate that RelDetect is able to utilize the inherent transferability of relationship information to obtain a better performance ($+5$ mAP points) than the above baselines on an unseen dataset (zero-shot transfer). In summary, we demonstrate the power of using relationships for object detection on datasets where fine-grained object categories can be linked to coarse-grained categories via suitable relationships.

arxiv情報

著者 Ambar Pal,Arnau Ramisa,Amit Kumar K C,René Vidal
発行日 2022-12-01 18:54:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク