Music to Dance as Language Translation using Sequence Models

要約

音楽から適切な振り付けを合成することは未解決の問題のままです。
振り付け生成の問題を翻訳タスクとして組み立てる新しいアプローチである MDLT を紹介します。
私たちの方法では、既存のデータセットを活用して、オーディオのシーケンスを対応するダンスのポーズに変換する方法を学習します。
MDLT の 2 つのバリアントを紹介します。1 つは Transformer アーキテクチャを使用し、もう 1 つは Mamba アーキテクチャを使用します。
私たちはロボットアームにダンスを教えるために AIST++ と PhantomDance データセットでメソッドをトレーニングしますが、私たちのメソッドは完全な人型ロボットにも適用できます。
平均関節誤差やフレシェ開始距離などの評価指標は、音楽が与えられた場合、MDLT が現実的で高品質の振り付けを作成することに優れていることを一貫して示しています。
コードは github.com/meowatthemoon/MDLT にあります。

要約(オリジナル)

Synthesising appropriate choreographies from music remains an open problem. We introduce MDLT, a novel approach that frames the choreography generation problem as a translation task. Our method leverages an existing data set to learn to translate sequences of audio into corresponding dance poses. We present two variants of MDLT: one utilising the Transformer architecture and the other employing the Mamba architecture. We train our method on AIST++ and PhantomDance data sets to teach a robotic arm to dance, but our method can be applied to a full humanoid robot. Evaluation metrics, including Average Joint Error and Fr\’echet Inception Distance, consistently demonstrate that, when given a piece of music, MDLT excels at producing realistic and high-quality choreography. The code can be found at github.com/meowatthemoon/MDLT.

arxiv情報

著者 André Correia,Luís A. Alexandre
発行日 2024-10-17 09:58:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SD, eess.AS パーマリンク