ZebraPose: Zebra Detection and Pose Estimation using only Synthetic Data

要約

合成データは、深層学習タスクの一般的ではない領域でのラベル付き画像の不足に対処するために使用されることが増えています。
顕著な例は、動物、特にシマウマなどの野生種の 2D 姿勢推定です。これについては、実世界のデータを収集するのが複雑で非現実的です。
しかし、多くのアプローチでは依然として、実際の画像、一貫性とスタイルの制約、洗練された動物モデル、および/または合成と実際のギャップを埋めるための強力な事前トレーニング済みネットワークが必要です。
さらに、動物は画像やビデオで確実に検出できると仮定することがよくありますが、この仮説はしばしば成り立ちません。
野生動物のシナリオや航空写真で。
これを解決するために、3D フォトリアリスティック シミュレーターで生成された合成データを使用して、前述のブリッジ戦略を適用せずにシマウマの検出と 2D 姿勢推定の両方に使用できる最初の合成データセットを取得します。
以前の研究とは異なり、事前トレーニングされたバックボーンと事前トレーニングされていないバックボーンの両方を使用して、複数の実世界および合成データセット上で検出および 2D 姿勢推定モデルを広範囲にトレーニングおよびベンチマークします。
これらの実験は、合成データのみを使用してゼロからトレーニングしたモデルが、両方のタスクにおいてどのように一貫して現実世界のシマウマの画像に一般化できるかを示しています。
さらに、ドメイン転送を考慮した最小限の実世界の画像を使用して、これらの同じモデルを馬の 2D 姿勢推定に簡単に一般化できることを示します。
コード、結果、トレーニングされたモデル。
手動でラベル付けされた 104K フレームを含む合成データ、トレーニング データ、および検証データは、https://zebrapose.is.tue.mpg.de/ でオープンソースとして提供されます。

要約(オリジナル)

Synthetic data is increasingly being used to address the lack of labeled images in uncommon domains for deep learning tasks. A prominent example is 2D pose estimation of animals, particularly wild species like zebras, for which collecting real-world data is complex and impractical. However, many approaches still require real images, consistency and style constraints, sophisticated animal models, and/or powerful pre-trained networks to bridge the syn-to-real gap. Moreover, they often assume that the animal can be reliably detected in images or videos, a hypothesis that often does not hold, e.g. in wildlife scenarios or aerial images. To solve this, we use synthetic data generated with a 3D photorealistic simulator to obtain the first synthetic dataset that can be used for both detection and 2D pose estimation of zebras without applying any of the aforementioned bridging strategies. Unlike previous works, we extensively train and benchmark our detection and 2D pose estimation models on multiple real-world and synthetic datasets using both pre-trained and non-pre-trained backbones. These experiments show how the models trained from scratch and only with synthetic data can consistently generalize to real-world images of zebras in both tasks. Moreover, we show it is possible to easily generalize those same models to 2D pose estimation of horses with a minimal amount of real-world images to account for the domain transfer. Code, results, trained models; and the synthetic, training, and validation data, including 104K manually labeled frames, are provided as open-source at https://zebrapose.is.tue.mpg.de/

arxiv情報

著者 Elia Bonetto,Aamir Ahmad
発行日 2024-08-20 13:28:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク