Improving Object Detection via Local-global Contrastive Learning

要約

視覚領域のギャップは、物体検出のパフォーマンスに影響を与えることがよくあります。
画像間の変換はこの影響を軽減できます。対照的なアプローチにより、教師なし領域での画像間のマッピングの学習が可能になります。
ただし、既存の方法では、複数のオブジェクト インスタンスを含むコンテンツが豊富なシーンの処理に失敗することが多く、検出パフォーマンスが不十分になってしまいます。
このようなインスタンス レベルのコンテンツに対する機密性は、通常、オブジェクト アノテーションを通じてのみ得られるため、取得にはコストがかかる場合があります。
この問題に対処するために、特にクロスドメインのオブジェクト検出を対象とした新しい画像間の変換方法を紹介します。
私たちは、空間アテンションマスクを通じてオブジェクトインスタンスの外観を最適化し、シーンをターゲットオブジェクトインスタンスに関連付けられた前景領域と背景の非オブジェクト領域に暗黙的に描写する帰納的事前分布を備えた対比学習フレームワークとしてアプローチを定式化します。
翻訳中にオブジェクトのインスタンスを明示的に説明するためにオブジェクトの注釈に依存する代わりに、私たちのアプローチは、ローカル情報とグローバル情報を対比させることによってオブジェクトを表現することを学習します。
これにより、オブジェクトのアノテーションや検出器モデルの微調整に依存せずに、ドメイン シフトの下でパフォーマンスの高い検出を取得するという、まだ検討されていない課題の調査が可能になります。
3 つの困難なベンチマークにわたって複数のクロスドメイン オブジェクト検出設定を実験し、最先端のパフォーマンスを報告します。
プロジェクトページ: https://local-global-detection.github.io

要約(オリジナル)

Visual domain gaps often impact object detection performance. Image-to-image translation can mitigate this effect, where contrastive approaches enable learning of the image-to-image mapping under unsupervised regimes. However, existing methods often fail to handle content-rich scenes with multiple object instances, which manifests in unsatisfactory detection performance. Sensitivity to such instance-level content is typically only gained through object annotations, which can be expensive to obtain. Towards addressing this issue, we present a novel image-to-image translation method that specifically targets cross-domain object detection. We formulate our approach as a contrastive learning framework with an inductive prior that optimises the appearance of object instances through spatial attention masks, implicitly delineating the scene into foreground regions associated with the target object instances and background non-object regions. Instead of relying on object annotations to explicitly account for object instances during translation, our approach learns to represent objects by contrasting local-global information. This affords investigation of an under-explored challenge: obtaining performant detection, under domain shifts, without relying on object annotations nor detector model fine-tuning. We experiment with multiple cross-domain object detection settings across three challenging benchmarks and report state-of-the-art performance. Project page: https://local-global-detection.github.io

arxiv情報

著者 Danai Triantafyllidou,Sarah Parisot,Ales Leonardis,Steven McDonagh
発行日 2024-10-25 11:53:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク