Self-Supervised Learning of Music-Dance Representation through Explicit-Implicit Rhythm Synchronization

要約

視聴覚表現は多くの下流のタスクに適用可能であることが証明されていますが、より具体的で常に複雑な聴覚コンテンツを伴う音楽を伴うダンスビデオの表現は、挑戦的で調査されていないままです。
ダンサーのケイデントな動きと音楽のリズムの本質的な整合性を考慮して、音楽とダンスのリズムの同期を明示的および暗黙的な方法で実行する新しい音楽-ダンス表現学習フレームワークであるMuDaRを紹介します。
具体的には、音楽のリズム分析から着想を得た視覚的外観と動きの手がかりに基づいて、ダンスのリズムを導き出します。
次に、視覚的なリズムは、音の強さの振幅によって抽出される音楽の対応物と時間的に整列されます。
一方、対照的な学習によって、オーディオストリームとビジュアルストリームに含まれるリズムの暗黙の一貫性を活用します。
モデルは、視聴覚ペア間の時間的一貫性を予測することにより、共同埋め込みを学習します。
音楽ダンスの表現は、オーディオとビジュアルのリズムを検出する機能とともに、(a)ダンスの分類、(b)音楽のダンスの取得、(c)音楽のダンスのリターゲティングという3つのダウンストリームタスクにさらに適用できます。
広範な実験は、提案されたフレームワークが他の自己監視方式よりも大幅に優れていることを示しています。

要約(オリジナル)

Although audio-visual representation has been proved to be applicable in many downstream tasks, the representation of dancing videos, which is more specific and always accompanied by music with complex auditory contents, remains challenging and uninvestigated. Considering the intrinsic alignment between the cadent movement of dancer and music rhythm, we introduce MuDaR, a novel Music-Dance Representation learning framework to perform the synchronization of music and dance rhythms both in explicit and implicit ways. Specifically, we derive the dance rhythms based on visual appearance and motion cues inspired by the music rhythm analysis. Then the visual rhythms are temporally aligned with the music counterparts, which are extracted by the amplitude of sound intensity. Meanwhile, we exploit the implicit coherence of rhythms implied in audio and visual streams by contrastive learning. The model learns the joint embedding by predicting the temporal consistency between audio-visual pairs. The music-dance representation, together with the capability of detecting audio and visual rhythms, can further be applied to three downstream tasks: (a) dance classification, (b) music-dance retrieval, and (c) music-dance retargeting. Extensive experiments demonstrate that our proposed framework outperforms other self-supervised methods by a large margin.

arxiv情報

著者 Jiashuo Yu,Junfu Pu,Ying Cheng,Rui Feng,Ying Shan
発行日 2022-07-07 09:44:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク