要約
無拘束環境における多関節物体のラベル付けは、エンターテインメント、神経科学、心理学、倫理学、医学の多くの分野を含む幅広い応用が可能である。しかし、最も一般的な多関節物体(例えば、人間)を除いて、オフラインでラベル付けされた大規模なデータセットが存在しない。ビデオシーケンス内でこれらのランドマークを手作業でラベル付けすることは、手間のかかる作業である。学習型ランドマーク検出器も有効であるが、少数の例から学習させた場合、エラーが発生しやすくなる。このようなエラーを検出するために、きめ細かい検出器を学習させるマルチカメラシステムが有望視されており、ビデオシーケンスのごく一部をハンドラベリングするだけで自己教師付きソリューションが可能になる。しかし、このアプローチは、較正されたカメラと剛体幾何学に基づくため、高価で管理が難しく、実世界のシナリオでは非現実的である。本論文では、非剛体3Dニューラル事前処理とディープフローを組み合わせることで、これらのボトルネックに対処し、わずか2~3台の未校正手持ちカメラによる動画から高忠実度のランドマーク推定値を得ることを目的とする。わずか数個のアノテーション(フレームの1~2%に相当)で、最新の完全教師あり手法に匹敵する2D結果と、他の既存のアプローチでは不可能な3D再構成を実現することができる。私たちのマルチビューブートストラップ法(MBW)は、標準的な人間のデータセット、トラ、チーター、魚、コロブス猿、チンパンジー、フラミンゴなど、動物園で何気なく撮影したビデオで素晴らしい結果を実証しています。我々は、MBWのコードベースと、この難しい動物園データセット(最後尾の分布カテゴリの画像フレームと、それに対応する2D、3Dラベルを最小限の人の介入で生成したもの)を公開する。
要約(オリジナル)
Labeling articulated objects in unconstrained settings have a wide variety of applications including entertainment, neuroscience, psychology, ethology, and many fields of medicine. Large offline labeled datasets do not exist for all but the most common articulated object categories (e.g., humans). Hand labeling these landmarks within a video sequence is a laborious task. Learned landmark detectors can help, but can be error-prone when trained from only a few examples. Multi-camera systems that train fine-grained detectors have shown significant promise in detecting such errors, allowing for self-supervised solutions that only need a small percentage of the video sequence to be hand-labeled. The approach, however, is based on calibrated cameras and rigid geometry, making it expensive, difficult to manage, and impractical in real-world scenarios. In this paper, we address these bottlenecks by combining a non-rigid 3D neural prior with deep flow to obtain high-fidelity landmark estimates from videos with only two or three uncalibrated, handheld cameras. With just a few annotations (representing 1-2% of the frames), we are able to produce 2D results comparable to state-of-the-art fully supervised methods, along with 3D reconstructions that are impossible with other existing approaches. Our Multi-view Bootstrapping in the Wild (MBW) approach demonstrates impressive results on standard human datasets, as well as tigers, cheetahs, fish, colobus monkeys, chimpanzees, and flamingos from videos captured casually in a zoo. We release the codebase for MBW as well as this challenging zoo dataset consisting image frames of tail-end distribution categories with their corresponding 2D, 3D labels generated from minimal human intervention.
arxiv情報
著者 | Mosam Dabhi,Chaoyang Wang,Tim Clifford,Laszlo Attila Jeni,Ian R. Fasel,Simon Lucey |
発行日 | 2022-10-04 16:27:54+00:00 |
arxivサイト | arxiv_id(pdf) |