要約
タイトル:Auto-CARD:リアルタイムモバイルテレプレゼンスの効率的かつ堅牢なコーデックアバタードライビング
要約:
– リアルタイムかつ堅牢なフォトリアリスティックなアバターは、AR / VRにおけるテレプレゼンスにおいて望まれます。
– しかし、1つの大きな課題が存在します。それは、ヘッドセットマウントされたカメラから取得された表情を正確に推測するために必要な計算負荷が大きいということです。
– この問題を解決するために、Auto-CARDというフレームワークを提案します。
– Auto-CARDは、単にオンデバイスのリソースだけを使用して、RL/VRでコーデックアバターをリアルタイムかつ堅牢にドライブすることを初めて実現します。
– このために、2つの冗長性を最小限にする手法を提供します。
– 1つ目の冗長性を減らすために、Avatar Encoding in AR / VRのための専用のニューラルアーキテクチャサーチ技術であるAVE-NASを開発し、極端な顔の表情があっても頑強かつハードウェアにやさしくすることができます。
– 2つ目の冗長性を減らすために、連続的なレンダリング中に連続的にキャプチャされた画像の時間的な冗長性を活用し、LATEXというメカニズムを開発します。
– 評価において、Auto-CARDフレームワークの有効性を示し、一流のアバターエンコーダ設計と同等またはそれ以上のアニメーション品質を維持しながらMeta Quest 2で5.05倍の高速化を実現します。
要約(オリジナル)
Real-time and robust photorealistic avatars for telepresence in AR/VR have been highly desired for enabling immersive photorealistic telepresence. However, there still exists one key bottleneck: the considerable computational expense needed to accurately infer facial expressions captured from headset-mounted cameras with a quality level that can match the realism of the avatar’s human appearance. To this end, we propose a framework called Auto-CARD, which for the first time enables real-time and robust driving of Codec Avatars when exclusively using merely on-device computing resources. This is achieved by minimizing two sources of redundancy. First, we develop a dedicated neural architecture search technique called AVE-NAS for avatar encoding in AR/VR, which explicitly boosts both the searched architectures’ robustness in the presence of extreme facial expressions and hardware friendliness on fast evolving AR/VR headsets. Second, we leverage the temporal redundancy in consecutively captured images during continuous rendering and develop a mechanism dubbed LATEX to skip the computation of redundant frames. Specifically, we first identify an opportunity from the linearity of the latent space derived by the avatar decoder and then propose to perform adaptive latent extrapolation for redundant frames. For evaluation, we demonstrate the efficacy of our Auto-CARD framework in real-time Codec Avatar driving settings, where we achieve a 5.05x speed-up on Meta Quest 2 while maintaining a comparable or even better animation quality than state-of-the-art avatar encoder designs.
arxiv情報
著者 | Yonggan Fu,Yuecheng Li,Chenghui Li,Jason Saragih,Peizhao Zhang,Xiaoliang Dai,Yingyan Lin |
発行日 | 2023-04-24 05:45:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI