要約
さまざまな仮想アバターアニメーションでの実際的な対話モデリングには、微妙な感情と表現力のある反応を伴うレスポンシブリスナーのヘッドダイナミクスを生成することが重要です。
以前の研究は、主にリスナー行動の直接的な短期生産に焦点を当てています。
特に長いシーケンスモデリングにおいて、運動の変動と感情的な強度に対するきめの細かい制御を見落としています。
さらに、ヘッドダイナミクスや細粒のマルチモダリティアノテーション(テキストベースの表現の説明、感情的な強度など)を含む長期的および大規模なペアのスピーカーリストナーコーポラの欠如は、ダイアログモデリングの適用を制限します。
相互作用、リスルックスと呼ばれます。
さらに、繊細で表現力豊かで制御可能なリスナーダイナミクスモデリングを可能にする新しいフレームワークであるVividListenerを提案します。
このフレームワークは、スピーカーとリスナーの間のコヒーレントな相互作用を促進するためのガイド原則としてマルチモーダル条件を活用します。特に、マルチモーダルのインタラクティブな埋め込みを適応的に表現するために、レスポンシブインタラクションモジュール(RIM)を設計します。
RIMは、リスナーのダイナミクスがテキストの説明と調整とのきめの細かいセマンティック調整を確実に達成し、スピーカーの行動と表現力のある反応を維持します。
一方、マルチモーダル情報統合を使用した感情強度編集の感情強度タグ(EIT)を設計し、テキストの説明とリスナーのモーション振幅の両方に適用されます。新しく収集されたリスナーのデータセットで実施された拡張実験は、vividListenerが最先端のパフォーマンスを実現し、表現力のあるダイナミクスを実現することを示しています。
要約(オリジナル)
Generating responsive listener head dynamics with nuanced emotions and expressive reactions is crucial for practical dialogue modeling in various virtual avatar animations. Previous studies mainly focus on the direct short-term production of listener behavior. They overlook the fine-grained control over motion variations and emotional intensity, especially in long-sequence modeling. Moreover, the lack of long-term and large-scale paired speaker-listener corpora including head dynamics and fine-grained multi-modality annotations (e.g., text-based expression descriptions, emotional intensity) also limits the application of dialogue modeling.Therefore, we first newly collect a large-scale multi-turn dataset of 3D dyadic conversation containing more than 1.4M valid frames for multi-modal responsive interaction, dubbed ListenerX. Additionally, we propose VividListener, a novel framework enabling fine-grained, expressive and controllable listener dynamics modeling. This framework leverages multi-modal conditions as guiding principles for fostering coherent interactions between speakers and listeners.Specifically, we design the Responsive Interaction Module (RIM) to adaptively represent the multi-modal interactive embeddings. RIM ensures the listener dynamics achieve fine-grained semantic coordination with textual descriptions and adjustments, while preserving expressive reaction with speaker behavior. Meanwhile, we design the Emotional Intensity Tags (EIT) for emotion intensity editing with multi-modal information integration, applying to both text descriptions and listener motion amplitude.Extensive experiments conducted on our newly collected ListenerX dataset demonstrate that VividListener achieves state-of-the-art performance, realizing expressive and controllable listener dynamics.
arxiv情報
著者 | Shiying Li,Xingqun Qi,Bingkun Yang,Chen Weile,Zezhao Tian,Muyi Sun,Qifeng Liu,Man Zhang,Zhenan Sun |
発行日 | 2025-04-30 15:05:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google