要約
非言語コミュニケーションは、多くの場合、発話の意味を伝えるのに役立つ意味的に豊富なジェスチャーで構成されます。
このような意味的な同時音声ジェスチャを生成することは、リズミカルなビート ジェスチャを生成できる既存のニューラル システムにとって大きな課題でしたが、意味論的に意味のあるジェスチャを生成するのは困難でした。
したがって、検索拡張生成 (RAG) を利用して自然に見え、意味的に豊かなジェスチャを生成する、拡散ベースのジェスチャ生成アプローチである RAG-Gesture を紹介します。
私たちの神経明示的ジェスチャー生成アプローチは、解釈可能な言語知識に基づいた意味論的なジェスチャーを生成するように設計されています。
これは、明示的なドメイン知識を使用して、共同スピーチジェスチャのデータベースから模範的な動作を取得することによって実現されます。
取得したら、トレーニングを必要とせずに、推論時に DDIM 逆変換と取得ガイダンスを使用して、これらのセマンティック見本ジェスチャを拡散ベースのジェスチャ生成パイプラインに注入します。
さらに、生成されたシーケンスに対して各検索挿入が及ぼす影響の量をユーザーが調整できるようにする、ガイダンスのための制御パラダイムを提案します。
私たちの比較評価は、最近のジェスチャー生成アプローチに対する私たちのアプローチの有効性を示しています。
読者は、プロジェクト ページで結果を調べてみることをお勧めします。
要約(オリジナル)
Non-verbal communication often comprises of semantically rich gestures that help convey the meaning of an utterance. Producing such semantic co-speech gestures has been a major challenge for the existing neural systems that can generate rhythmic beat gestures, but struggle to produce semantically meaningful gestures. Therefore, we present RAG-Gesture, a diffusion-based gesture generation approach that leverages Retrieval Augmented Generation (RAG) to produce natural-looking and semantically rich gestures. Our neuro-explicit gesture generation approach is designed to produce semantic gestures grounded in interpretable linguistic knowledge. We achieve this by using explicit domain knowledge to retrieve exemplar motions from a database of co-speech gestures. Once retrieved, we then inject these semantic exemplar gestures into our diffusion-based gesture generation pipeline using DDIM inversion and retrieval guidance at the inference time without any need of training. Further, we propose a control paradigm for guidance, that allows the users to modulate the amount of influence each retrieval insertion has over the generated sequence. Our comparative evaluations demonstrate the validity of our approach against recent gesture generation approaches. The reader is urged to explore the results on our project page.
arxiv情報
著者 | M. Hamza Mughal,Rishabh Dabral,Merel C. J. Scholman,Vera Demberg,Christian Theobalt |
発行日 | 2024-12-09 18:59:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google