ImplicitDeepfake: Plausible Face-Swapping through Implicit Deepfake Generation using NeRF and Gaussian Splatting

要約

数多くの新たなディープラーニング技術がコンピューター グラフィックスに大きな影響を与えています。
最も有望なブレークスルーの中には、最近台頭したニューラル ラディアンス フィールド (NeRF) とガウス スプラッティング (GS) があります。
NeRF は、既知のカメラ位置を持つ少数の画像を使用して、ニューラル ネットワークの重みでオブジェクトの形状と色をエンコードし、新しいビューを生成します。
対照的に、GS は、オブジェクトの特性をガウス分布のコレクションにエンコードすることで、レンダリング品質を低下させることなく、トレーニングと推論を高速化します。
これら 2 つの手法は、空間コンピューティングやその他の領域で多くの使用例を見つけています。
一方で、ディープフェイク手法の出現はかなりの論争を引き起こしました。
このような技術では、本物の映像を忠実に模倣した人工知能によって生成されたビデオの形式が使用される場合があります。
生成モデルを使用すると、顔の特徴を変更して、現実の人物に非常にリアルな外観を示す、変更されたアイデンティティや顔の表情を作成できます。
こうした論争にもかかわらず、ディープフェイクは、望ましい品質であれば、アバターの作成とゲームのための次世代ソリューションを提供できます。
そのために、これらすべての新しいテクノロジーを組み合わせて、より妥当な結果を得る方法を示します。
私たちの ImplicitDeepfake1 は、古典的なディープフェイク アルゴリズムを使用して、すべてのトレーニング画像を個別に変更し、変更された顔で NeRF と GS をトレーニングします。
このような比較的単純な戦略により、もっともらしい 3D ディープフェイク ベースのアバターを生成できます。

要約(オリジナル)

Numerous emerging deep-learning techniques have had a substantial impact on computer graphics. Among the most promising breakthroughs are the recent rise of Neural Radiance Fields (NeRFs) and Gaussian Splatting (GS). NeRFs encode the object’s shape and color in neural network weights using a handful of images with known camera positions to generate novel views. In contrast, GS provides accelerated training and inference without a decrease in rendering quality by encoding the object’s characteristics in a collection of Gaussian distributions. These two techniques have found many use cases in spatial computing and other domains. On the other hand, the emergence of deepfake methods has sparked considerable controversy. Such techniques can have a form of artificial intelligence-generated videos that closely mimic authentic footage. Using generative models, they can modify facial features, enabling the creation of altered identities or facial expressions that exhibit a remarkably realistic appearance to a real person. Despite these controversies, deepfake can offer a next-generation solution for avatar creation and gaming when of desirable quality. To that end, we show how to combine all these emerging technologies to obtain a more plausible outcome. Our ImplicitDeepfake1 uses the classical deepfake algorithm to modify all training images separately and then train NeRF and GS on modified faces. Such relatively simple strategies can produce plausible 3D deepfake-based avatars.

arxiv情報

著者 Georgii Stanishevskii,Jakub Steczkiewicz,Tomasz Szczepanik,Sławomir Tadeja,Jacek Tabor,Przemysław Spurek
発行日 2024-02-09 13:11:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク