Driving Animatronic Robot Facial Expression From Speech

要約

アニマトロニクス ロボットは、本物のような表情を通じて人間とロボットの自然な相互作用を可能にする可能性を秘めています。
ただし、顔の生体力学の複雑さと応答性の高いモーション合成の必要性により、リアルな音声同期ロボット表現を生成することは大きな課題を引き起こします。
この論文では、音声入力からアニマトロニクス ロボットの表情を駆動するための、スキニング中心の新しいアプローチを紹介します。
提案されたアプローチの中核では、統合表現としてリニア ブレンド スキニング (LBS) が採用されており、実施形態の設計とモーション合成の両方における革新を導きます。
LBS は作動トポロジーを情報提供し、人間の表情のリターゲットを容易にし、効率的な音声駆動の顔のモーション生成を可能にします。
このアプローチは、1 台の Nvidia RTX 4090 で 4000 fps 以上の速度でアニマトロニクスの顔に非常にリアルな表情をリアルタイムで生成できることを実証し、人間の微妙な表情を再現して自然なインタラクションを実現するロボットの能力を大幅に向上させます。
この分野でのさらなる研究開発を促進するために、コードは \url{https://github.com/library87/OpenRoboExp} で公開されています。

要約(オリジナル)

Animatronic robots hold the promise of enabling natural human-robot interaction through lifelike facial expressions. However, generating realistic, speech-synchronized robot expressions poses significant challenges due to the complexities of facial biomechanics and the need for responsive motion synthesis. This paper introduces a novel, skinning-centric approach to drive animatronic robot facial expressions from speech input. At its core, the proposed approach employs linear blend skinning (LBS) as a unifying representation, guiding innovations in both embodiment design and motion synthesis. LBS informs the actuation topology, facilitates human expression retargeting, and enables efficient speech-driven facial motion generation. This approach demonstrates the capability to produce highly realistic facial expressions on an animatronic face in real-time at over 4000 fps on a single Nvidia RTX 4090, significantly advancing robots’ ability to replicate nuanced human expressions for natural interaction. To foster further research and development in this field, the code has been made publicly available at: \url{https://github.com/library87/OpenRoboExp}.

arxiv情報

著者 Boren Li,Hang Li,Hangxin Liu
発行日 2024-08-07 10:45:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク