要約
私たちはダンスを、音楽から視覚的なリズムを形成する動作であると仮定し、その視覚的なリズムをオプティカルフローから知覚することができます。
エージェントが視覚リズムと音楽の関係を認識できれば、音楽に合わせた視覚リズムを作り出すモーションを生成して踊ることができるようになります。
これに基づいて、人間以外のあらゆる種類のエージェントが人間のビデオからダンスの仕方を学習するためのフレームワークを提案します。
私たちのフレームワークは、(1) 人間のダンスビデオからオプティカル フロー (視覚的リズム) と音楽の関係を認識する報酬モデルをトレーニングする、(2) その報酬モデルに基づいて非人型ダンサーをトレーニングする、および強化学習という 2 つのプロセスで動作します。
。
私たちの報酬モデルは、オプティカル フローと音楽用の 2 つの機能エンコーダーで構成されています。
これらは、同時オプティカル フローと音楽の特徴の間の類似性を高める対照学習に基づいてトレーニングされています。
この報酬モデルを使用すると、エージェントは、そのアクションが特定の音楽特徴との類似性が高いオプティカル フローを作成するときに、より高い報酬を得ることでダンスを学習します。
実験結果は、生成されたダンスモーションが音楽のビートと適切に一致できることを示し、ユーザー調査の結果は、ベースラインと比較して私たちのフレームワークが人間により好まれることを示しています。
私たちの知る限り、人間のビデオからダンスを学習する非人型エージェントの仕事は前例がありません。
ビデオの例は https://youtu.be/dOUPvo-O3QY でご覧いただけます。
要約(オリジナル)
We hypothesize dance as a motion that forms a visual rhythm from music, where the visual rhythm can be perceived from an optical flow. If an agent can recognize the relationship between visual rhythm and music, it will be able to dance by generating a motion to create a visual rhythm that matches the music. Based on this, we propose a framework for any kind of non-humanoid agents to learn how to dance from human videos. Our framework works in two processes: (1) training a reward model which perceives the relationship between optical flow (visual rhythm) and music from human dance videos, (2) training the non-humanoid dancer based on that reward model, and reinforcement learning. Our reward model consists of two feature encoders for optical flow and music. They are trained based on contrastive learning which makes the higher similarity between concurrent optical flow and music features. With this reward model, the agent learns dancing by getting a higher reward when its action creates an optical flow whose feature has a higher similarity with the given music feature. Experiment results show that generated dance motion can align with the music beat properly, and user study result indicates that our framework is more preferred by humans compared to the baselines. To the best of our knowledge, our work of non-humanoid agents which learn dance from human videos is unprecedented. An example video can be found at https://youtu.be/dOUPvo-O3QY.
arxiv情報
著者 | Hyemin Ahn |
発行日 | 2024-05-30 06:43:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google