要約
カメラの注釈をアノテートすると、ダイナミックなインターネット動画でのポーズが大きくなり、現実的なビデオ生成やシミュレーションなどのフィールドを進めるために重要です。
ただし、ほとんどのインターネットビデオはポーズの推定には不適切であるため、このようなデータセットを収集することは困難です。
さらに、動的なインターネットビデオに注釈を付けて、最先端の方法でも重要な課題を提示します。
この論文では、カメラのポーズが注釈された動的なインターネットビデオの大規模なデータセットであるDynope-100Kを紹介します。
当社のコレクションパイプラインは、慎重に組み合わされたタスク固有とジェネラリストモデルを使用してフィルタリングに対処します。
ポーズ推定のために、ポイント追跡、動的マスキング、および構造からの最新の手法を組み合わせて、最先端のアプローチよりも改善を達成します。
私たちの分析と実験は、Dynpose-100Kがいくつかの重要な属性にわたって大規模で多様であることを示しており、さまざまな下流のアプリケーションでの進歩の手段を開きます。
要約(オリジナル)
Annotating camera poses on dynamic Internet videos at scale is critical for advancing fields like realistic video generation and simulation. However, collecting such a dataset is difficult, as most Internet videos are unsuitable for pose estimation. Furthermore, annotating dynamic Internet videos present significant challenges even for state-of-theart methods. In this paper, we introduce DynPose-100K, a large-scale dataset of dynamic Internet videos annotated with camera poses. Our collection pipeline addresses filtering using a carefully combined set of task-specific and generalist models. For pose estimation, we combine the latest techniques of point tracking, dynamic masking, and structure-from-motion to achieve improvements over the state-of-the-art approaches. Our analysis and experiments demonstrate that DynPose-100K is both large-scale and diverse across several key attributes, opening up avenues for advancements in various downstream applications.
arxiv情報
著者 | Chris Rockwell,Joseph Tung,Tsung-Yi Lin,Ming-Yu Liu,David F. Fouhey,Chen-Hsuan Lin |
発行日 | 2025-04-24 17:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google