PianoMotion10M: Dataset and Benchmark for Hand Motion Generation in Piano Performance

要約

近年、教育における人工知能技術への注目が高まっていますが、効果的な楽器指導システムの設計には依然として未解決の課題が残されています。
キーの押下は楽譜から直接導き出すことができますが、キーの押下間の移行動作には、ピアノ演奏におけるより広範な指導が必要です。
この研究では、ピアノ演奏のための手の動きと運指をガイドするためのピアノと手の動き生成ベンチマークを構築します。
この目的を達成するために、1,000 万の注釈付き手のポーズを含む鳥瞰図からの 116 時間のピアノ演奏ビデオで構成される注釈付きデータセット PianoMotion10M を収集します。
また、位置予測器と位置ガイド付きジェスチャー ジェネレーターを通じてピアノ オーディオから手の動きを生成する強力なベースライン モデルも導入します。
さらに、動きの類似性、滑らかさ、左手と右手の位置精度、動き分布の全体的な忠実度など、ベースライン モデルのパフォーマンスを評価する一連の評価指標が設計されています。
楽譜やオーディオに基づいてピアノのキーを押すことはすでにアクセス可能ですが、PianoMotion10M は、指導目的でピアノの運指に関するガイダンスを提供することを目的としています。
データセットとソース コードには、https://agnjason.github.io/PianoMotion-page からアクセスできます。

要約(オリジナル)

Recently, artificial intelligence techniques for education have been received increasing attentions, while it still remains an open problem to design the effective music instrument instructing systems. Although key presses can be directly derived from sheet music, the transitional movements among key presses require more extensive guidance in piano performance. In this work, we construct a piano-hand motion generation benchmark to guide hand movements and fingerings for piano playing. To this end, we collect an annotated dataset, PianoMotion10M, consisting of 116 hours of piano playing videos from a bird’s-eye view with 10 million annotated hand poses. We also introduce a powerful baseline model that generates hand motions from piano audios through a position predictor and a position-guided gesture generator. Furthermore, a series of evaluation metrics are designed to assess the performance of the baseline model, including motion similarity, smoothness, positional accuracy of left and right hands, and overall fidelity of movement distribution. Despite that piano key presses with respect to music scores or audios are already accessible, PianoMotion10M aims to provide guidance on piano fingering for instruction purposes. The dataset and source code can be accessed at https://agnjason.github.io/PianoMotion-page.

arxiv情報

著者 Qijun Gan,Song Wang,Shengtao Wu,Jianke Zhu
発行日 2024-06-13 17:05:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS パーマリンク