Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer

要約

拡散モデルを使用したモーション合成の顕著な結果を考えると、自然な疑問が生じます。これらのモデルをモーション編集に効果的に活用するにはどうすればよいでしょうか?
既存の拡散ベースのモーション編集手法は、潜在特徴空間の操作を可能にする事前トレーニング済みモデルの重みに埋め込まれた事前の潜在的な可能性を見落としています。
したがって、これらは主にモーション スペースの処理に重点を置いています。
この研究では、事前にトレーニングされたモーション拡散モデルの注意メカニズムを調査します。
人間の複雑な動作パターンを捉えて表現する際のアテンション要素の役割と相互作用を明らかにし、これらの要素を慎重に統合して、フォロワーの微妙な特徴を維持しながらリーダーのモーションをフォロワーのモーションに転送することで、ゼロショットのモーション転送が実現します。
選択したモーションに関連付けられた編集機能により、編集に一般的な指示 (テキスト、音楽など) を使用し、最終的には微妙なニュアンスを効果的に伝えることができないという、従来のモーション拡散アプローチで観察された課題に取り組むことができます。
私たちの作品は、サルがその独特の動作パターンを維持しながら、見たものを忠実に模倣する方法からインスピレーションを得ています。
したがって、私たちはそれをMonkey See、Monkey Doと呼び、MoMoと呼んでいます。
当社技術を採用することで、配信外モーションの合成やスタイル転送、空間編集などを実現します。
さらに、拡散反転がモーションに使用されることはほとんどありません。
その結果、編集作業は生成されたモーションに集中し、実際のモーションの編集可能性は制限されます。
MoMo はモーション反転を利用し、そのアプリケーションを実際のモーションと生成されたモーションの両方に拡張します。
実験結果は、現在の技術に対する我々のアプローチの利点を示しています。
特に、トレーニングを通じて特定のアプリケーションに合わせて調整された方法とは異なり、私たちのアプローチは推論時に適用されるため、トレーニングは必要ありません。
私たちのウェブページは https://monkeyseedocg.github.io にあります。

要約(オリジナル)

Given the remarkable results of motion synthesis with diffusion models, a natural question arises: how can we effectively leverage these models for motion editing? Existing diffusion-based motion editing methods overlook the profound potential of the prior embedded within the weights of pre-trained models, which enables manipulating the latent feature space; hence, they primarily center on handling the motion space. In this work, we explore the attention mechanism of pre-trained motion diffusion models. We uncover the roles and interactions of attention elements in capturing and representing intricate human motion patterns, and carefully integrate these elements to transfer a leader motion to a follower one while maintaining the nuanced characteristics of the follower, resulting in zero-shot motion transfer. Editing features associated with selected motions allows us to confront a challenge observed in prior motion diffusion approaches, which use general directives (e.g., text, music) for editing, ultimately failing to convey subtle nuances effectively. Our work is inspired by how a monkey closely imitates what it sees while maintaining its unique motion patterns; hence we call it Monkey See, Monkey Do, and dub it MoMo. Employing our technique enables accomplishing tasks such as synthesizing out-of-distribution motions, style transfer, and spatial editing. Furthermore, diffusion inversion is seldom employed for motions; as a result, editing efforts focus on generated motions, limiting the editability of real ones. MoMo harnesses motion inversion, extending its application to both real and generated motions. Experimental results show the advantage of our approach over the current art. In particular, unlike methods tailored for specific applications through training, our approach is applied at inference time, requiring no training. Our webpage is at https://monkeyseedocg.github.io.

arxiv情報

著者 Sigal Raab,Inbar Gat,Nathan Sala,Guy Tevet,Rotem Shalev-Arkushin,Ohad Fried,Amit H. Bermano,Daniel Cohen-Or
発行日 2024-06-10 17:47:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク