要約
非言語的コミュニケーションは、発話の意味を伝えるのに役立つ意味豊かなジェスチャーで構成されることが多い。このような意味的な共話ジェスチャーを生成することは、既存の神経システムにとって大きな課題であった。既存の神経システムは、リズミカルなビートジェスチャーを生成することはできるが、意味的に意味のあるジェスチャーを生成することに苦戦している。そこで我々は、自然で意味豊かなジェスチャーを生成するために、RAG(Retrieval Augmented Generation)を活用した拡散ベースのジェスチャー生成アプローチであるRAG-Gestureを提案する。我々の神経明示的ジェスチャー生成アプローチは、解釈可能な言語知識に基づいた意味的ジェスチャーを生成するように設計されている。これは、明示的なドメイン知識を用いて、発話ジェスチャーのデータベースから模範的なモーションを検索することで実現される。一旦検索されると、これらの意味的な模範ジェスチャーを、DDIM反転と検索ガイダンスを用いて、拡散ベースのジェスチャー生成パイプラインに注入する。さらに、ガイダンスの制御パラダイムを提案し、各検索挿入が生成シーケンスに与える影響量をユーザが調節できるようにする。我々の比較評価により、最近のジェスチャー生成アプローチに対する我々のアプローチの有効性が実証された。読者は、我々のプロジェクト・ページで結果を探索することが望まれる。
要約(オリジナル)
Non-verbal communication often comprises of semantically rich gestures that help convey the meaning of an utterance. Producing such semantic co-speech gestures has been a major challenge for the existing neural systems that can generate rhythmic beat gestures, but struggle to produce semantically meaningful gestures. Therefore, we present RAG-Gesture, a diffusion-based gesture generation approach that leverages Retrieval Augmented Generation (RAG) to produce natural-looking and semantically rich gestures. Our neuro-explicit gesture generation approach is designed to produce semantic gestures grounded in interpretable linguistic knowledge. We achieve this by using explicit domain knowledge to retrieve exemplar motions from a database of co-speech gestures. Once retrieved, we then inject these semantic exemplar gestures into our diffusion-based gesture generation pipeline using DDIM inversion and retrieval guidance at the inference time without any need of training. Further, we propose a control paradigm for guidance, that allows the users to modulate the amount of influence each retrieval insertion has over the generated sequence. Our comparative evaluations demonstrate the validity of our approach against recent gesture generation approaches. The reader is urged to explore the results on our project page.
arxiv情報
著者 | M. Hamza Mughal,Rishabh Dabral,Merel C. J. Scholman,Vera Demberg,Christian Theobalt |
発行日 | 2025-04-04 07:48:19+00:00 |
arxivサイト | arxiv_id(pdf) |