Attention-Based VR Facial Animation with Visual Mouth Camera Guidance for Immersive Telepresence Avatars

要約

仮想現実環境における顔のアニメーションは、ユーザーの顔の明確な可視性と感情信号の伝達機能を必要とするアプリケーションにとって不可欠です。
このシナリオでは、ロボット アバター システムを制御するオペレーターの顔をアニメーション化します。
顔のアニメーションの使用は、単なるロボットではなく特定の個人と対話するという認識が意図されている場合に特に価値があります。
純粋にキーポイント駆動のアニメーション アプローチは、顔の動きの複雑さに苦労します。
キーポイントと口カメラからの直接視覚ガイドの両方を使用するハイブリッド方法を紹介します。
私たちの方法は目に見えないオペレーターに一般化されており、2 つの短いビデオをキャプチャする簡単な登録手順のみが必要です。
さまざまな表情をカバーすることを目的として、複数のソース画像が選択されています。
HMD からの口カメラ フレームが与えられると、ターゲット キーポイントを動的に構築し、アテンション メカニズムを適用して各ソース画像の重要性を判断します。
キーポイントのあいまいさを解決し、より広範囲の口の表情をアニメーション化するために、視覚的な口カメラ情報を潜在空間に注入することを提案します。
視点の違いや顔の変形を使用して口カメラ入力をシミュレートすることで、大規模な話者頭部データセットのトレーニングが可能になります。
私たちのメソッドは、品質、機能、時間的一貫性の点でベースラインを上回っています。
さらに、フェイシャル アニメーションが ANA アバター XPRIZE ファイナルでの勝利にどのように貢献したかを強調します。

要約(オリジナル)

Facial animation in virtual reality environments is essential for applications that necessitate clear visibility of the user’s face and the ability to convey emotional signals. In our scenario, we animate the face of an operator who controls a robotic Avatar system. The use of facial animation is particularly valuable when the perception of interacting with a specific individual, rather than just a robot, is intended. Purely keypoint-driven animation approaches struggle with the complexity of facial movements. We present a hybrid method that uses both keypoints and direct visual guidance from a mouth camera. Our method generalizes to unseen operators and requires only a quick enrolment step with capture of two short videos. Multiple source images are selected with the intention to cover different facial expressions. Given a mouth camera frame from the HMD, we dynamically construct the target keypoints and apply an attention mechanism to determine the importance of each source image. To resolve keypoint ambiguities and animate a broader range of mouth expressions, we propose to inject visual mouth camera information into the latent space. We enable training on large-scale speaking head datasets by simulating the mouth camera input with its perspective differences and facial deformations. Our method outperforms a baseline in quality, capability, and temporal consistency. In addition, we highlight how the facial animation contributed to our victory at the ANA Avatar XPRIZE Finals.

arxiv情報

著者 Andre Rochow,Max Schwarz,Sven Behnke
発行日 2023-12-15 12:45:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク