要約
ディープラーニングとコンピュータービジョンの最近の進歩により、現実的なトーキングヘッドの生成に対する関心が高まっています。
この論文では、トーキング ヘッド生成のための最先端の方法に関する包括的な調査を紹介します。
私たちはそれらを画像主導型、音声主導型、ビデオ主導型およびその他 (神経放射フィールド (NeRF) および 3D ベースの手法を含む) という 4 つの主要なアプローチに系統的に分類しています。
各手法の詳細な分析を提供し、その独自の貢献、長所、制限を強調します。
さらに、公開されているモデルを徹底的に比較し、推論時間や生成された出力の人間評価による品質などの重要な側面でモデルを評価します。
私たちの目的は、トーキングヘッド生成における現在の状況の明確かつ簡潔な概要を提供し、さまざまなアプローチ間の関係を解明し、将来の研究の有望な方向性を特定することです。
この調査は、この急速に進化する分野に興味を持つ研究者や実務家にとって貴重な参考資料となるでしょう。
要約(オリジナル)
Recent advancements in deep learning and computer vision have led to a surge of interest in generating realistic talking heads. This paper presents a comprehensive survey of state-of-the-art methods for talking head generation. We systematically categorises them into four main approaches: image-driven, audio-driven, video-driven and others (including neural radiance fields (NeRF), and 3D-based methods). We provide an in-depth analysis of each method, highlighting their unique contributions, strengths, and limitations. Furthermore, we thoroughly compare publicly available models, evaluating them on key aspects such as inference time and human-rated quality of the generated outputs. Our aim is to provide a clear and concise overview of the current landscape in talking head generation, elucidating the relationships between different approaches and identifying promising directions for future research. This survey will serve as a valuable reference for researchers and practitioners interested in this rapidly evolving field.
arxiv情報
著者 | Shreyank N Gowda,Dheeraj Pandey,Shashank Narayana Gowda |
発行日 | 2023-08-30 14:00:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google