The One Where They Reconstructed 3D Humans and Environments in TV Shows

要約

テレビ番組は、さまざまな人間の行動を描写しており、多くのアプリケーションの豊富なデータソースになる可能性について広く研究されてきました。
ただし、既存の作業の大部分は2D認識タスクに焦点を合わせています。
この論文では、テレビ番組に一定の持続性、つまり環境と人間の繰り返しがあり、それによってこのコンテンツの3D再構築が可能になることを観察します。
この洞察に基づいて、テレビ番組のシーズン全体で動作し、情報を3Dで集約する自動アプローチを提案します。
環境の3Dモデルを構築し、カメラ情報、静的3Dシーン構造、およびボディスケール情報を計算します。
次に、この情報が、これらの環境での3D人間のポーズと位置の回復をガイドおよび改善できる豊富な3Dコンテキストとしてどのように機能するかを示します。
さらに、3Dでの人間とその環境についての推論により、再識別、視線推定、シネマトグラフィ、画像編集など、幅広いダウンストリームアプリケーションが可能になることを示します。
私たちは、7つの象徴的なテレビ番組の環境に私たちのアプローチを適用し、提案されたシステムの広範な評価を実行します。

要約(オリジナル)

TV shows depict a wide variety of human behaviors and have been studied extensively for their potential to be a rich source of data for many applications. However, the majority of the existing work focuses on 2D recognition tasks. In this paper, we make the observation that there is a certain persistence in TV shows, i.e., repetition of the environments and the humans, which makes possible the 3D reconstruction of this content. Building on this insight, we propose an automatic approach that operates on an entire season of a TV show and aggregates information in 3D; we build a 3D model of the environment, compute camera information, static 3D scene structure and body scale information. Then, we demonstrate how this information acts as rich 3D context that can guide and improve the recovery of 3D human pose and position in these environments. Moreover, we show that reasoning about humans and their environment in 3D enables a broad range of downstream applications: re-identification, gaze estimation, cinematography and image editing. We apply our approach on environments from seven iconic TV shows and perform an extensive evaluation of the proposed system.

arxiv情報

著者 Georgios Pavlakos,Ethan Weber,Matthew Tancik,Angjoo Kanazawa
発行日 2022-07-28 17:57:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク