Learning Transformations To Reduce the Geometric Shift in Object Detection

要約

テスト分布がトレーニング分布と異なる場合、最新のオブジェクト検出器のパフォーマンスは低下します。
この焦点に対処する方法のほとんどは、たとえば、異なる照明条件、または合成画像と実際の画像の間のギャップによって引き起こされるオブジェクトの外観の変化に焦点を当てています。
これとは対照的に、ここでは、画像キャプチャ プロセスの変化から生じる幾何学的シフト、またはコンテンツ自体の見かけの幾何学的な違いを引き起こす環境の制約に取り組みます。
新しいドメインのラベル付きデータやカメラに関する情報を利用せずに、一連の幾何学的変換を学習してこれらのシフトを最小限に抑える自己トレーニング アプローチを導入します。
カメラの視野 (FoV) の変化と視点の変化という 2 つの異なるシフトで、この方法を評価します。
私たちの結果は、幾何学的変換を学習すると、検出器がターゲットドメインでより優れたパフォーマンスを発揮するのに役立つことを証明しています。

要約(オリジナル)

The performance of modern object detectors drops when the test distribution differs from the training one. Most of the methods that address this focus on object appearance changes caused by, e.g., different illumination conditions, or gaps between synthetic and real images. Here, by contrast, we tackle geometric shifts emerging from variations in the image capture process, or due to the constraints of the environment causing differences in the apparent geometry of the content itself. We introduce a self-training approach that learns a set of geometric transformations to minimize these shifts without leveraging any labeled data in the new domain, nor any information about the cameras. We evaluate our method on two different shifts, i.e., a camera’s field of view (FoV) change and a viewpoint change. Our results evidence that learning geometric transformations helps detectors to perform better in the target domains.

arxiv情報

著者 Vidit Vidit,Martin Engilberge,Mathieu Salzmann
発行日 2023-01-13 11:55:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク