要約
教師なし法を含む最新の6Dオブジェクトポーズ推定法では、多くの実際のトレーニング画像が必要です。
残念ながら、宇宙や深海などの一部のアプリケーションでは、注釈が付けられていなくても、実際の画像を取得することは事実上不可能です。
この論文では、合成画像のみで、またはオプションでいくつかの追加の実際の画像を使用してトレーニングできる方法を提案します。
最初のネットワークから得られた大まかなポーズの推定値が与えられると、2番目のネットワークを使用して、大まかなポーズを使用してレンダリングされた画像と実際の画像の間の密な2D対応フィールドを予測し、必要なポーズ補正を推測します。
このアプローチは、最先端の方法よりも、合成画像と実像の間のドメインシフトに対する感度がはるかに低くなります。
使用しない場合はトレーニングに注釈付きの実像を必要とする方法と同等のパフォーマンスを発揮し、わずか20個の実像を使用する場合はそれらを大幅に上回ります。
要約(オリジナル)
Most recent 6D object pose estimation methods, including unsupervised ones, require many real training images. Unfortunately, for some applications, such as those in space or deep under water, acquiring real images, even unannotated, is virtually impossible. In this paper, we propose a method that can be trained solely on synthetic images, or optionally using a few additional real ones. Given a rough pose estimate obtained from a first network, it uses a second network to predict a dense 2D correspondence field between the image rendered using the rough pose and the real image and infers the required pose correction. This approach is much less sensitive to the domain shift between synthetic and real images than state-of-the-art methods. It performs on par with methods that require annotated real images for training when not using any, and outperforms them considerably when using as few as twenty real images.
arxiv情報
著者 | Yinlin Hu,Pascal Fua,Mathieu Salzmann |
発行日 | 2022-07-18 14:19:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google