要約
本研究では、視覚と行動の両方の観点から、微妙な顔の動きを自律的に計画し、リアルにアニメーションさせることができる対話型アバターエージェントを作成することを目的とする。環境とエージェントプロファイルに関する高レベルの入力が与えられると、我々のフレームワークはLLMを利用して、アバターエージェントの顔の動きに関する一連の詳細なテキスト記述を生成する。これらの記述は、タスクにとらわれないドライビングエンジンによってモーショントークンシーケンスに処理され、その後、連続的なモーションエンベッディングに変換され、さらに、スタンドアローンのニューラルベースのレンダラーによって消費され、最終的なフォトリアリスティックなアバターアニメーションが生成されます。これらの合理化されたプロセスにより、我々のフレームワークは、モナド的およびダイアド的な様々な非言語的アバターインタラクションに適応することができる。我々の広範な研究は、新たにコンパイルされたデータセットと既存のデータセットの両方を用いた実験を含み、2つのタイプのエージェント(1つは環境との単数的なインタラクションが可能であり、もう1つは双対的な会話用に設計されている)を用いて、我々のアプローチの有効性と汎用性を検証している。我々の知る限り、LLMとニューラルレンダリングを組み合わせることで、アバターエージェントの一般化された非言語予測とフォトリアリスティックレンダリングを実現し、飛躍的な進歩を遂げた。
要約(オリジナル)
In this study, our goal is to create interactive avatar agents that can autonomously plan and animate nuanced facial movements realistically, from both visual and behavioral perspectives. Given high-level inputs about the environment and agent profile, our framework harnesses LLMs to produce a series of detailed text descriptions of the avatar agents’ facial motions. These descriptions are then processed by our task-agnostic driving engine into motion token sequences, which are subsequently converted into continuous motion embeddings that are further consumed by our standalone neural-based renderer to generate the final photorealistic avatar animations. These streamlined processes allow our framework to adapt to a variety of non-verbal avatar interactions, both monadic and dyadic. Our extensive study, which includes experiments on both newly compiled and existing datasets featuring two types of agents — one capable of monadic interaction with the environment, and the other designed for dyadic conversation — validates the effectiveness and versatility of our approach. To our knowledge, we advanced a leap step by combining LLMs and neural rendering for generalized non-verbal prediction and photo-realistic rendering of avatar agents.
arxiv情報
著者 | Duomin Wang,Bin Dai,Yu Deng,Baoyuan Wang |
発行日 | 2023-12-04 16:49:18+00:00 |
arxivサイト | arxiv_id(pdf) |