要約
この研究では、インターネット デモンストレーションを使用してピアノ演奏エージェントをトレーニングするためのフレームワークである PianoMime を紹介します。
インターネットは、ロボット エージェントをトレーニングするための大規模なデモンストレーションの有望な情報源です。
特にピアノ演奏の場合、Youtube にはプロのピアニストが無数の曲を演奏する動画が溢れています。
私たちの研究では、これらのデモンストレーションを活用して、任意の曲を演奏できる汎用的なピアノ演奏エージェントを学習します。
私たちのフレームワークは 3 つの部分に分かれています。Youtube ビデオから有益な特徴を抽出するデータ準備フェーズ、デモンストレーションから曲固有の専門家ポリシーをトレーニングするポリシー学習フェーズ、およびポリシーを単一のジェネラリスト エージェントに抽出するポリシー抽出フェーズです。
。
エージェントを表すさまざまなポリシー設計を検討し、データセットでは利用できない新しい曲に対するエージェントの汎化能力に対するトレーニング データの量の影響を評価します。
未見の曲で最大 56\% の F1 スコアを持つポリシーを学習できることを示します。
要約(オリジナル)
In this work, we introduce PianoMime, a framework for training a piano-playing agent using internet demonstrations. The internet is a promising source of large-scale demonstrations for training our robot agents. In particular, for the case of piano-playing, Youtube is full of videos of professional pianists playing a wide myriad of songs. In our work, we leverage these demonstrations to learn a generalist piano-playing agent capable of playing any arbitrary song. Our framework is divided into three parts: a data preparation phase to extract the informative features from the Youtube videos, a policy learning phase to train song-specific expert policies from the demonstrations and a policy distillation phase to distil the policies into a single generalist agent. We explore different policy designs to represent the agent and evaluate the influence of the amount of training data on the generalization capability of the agent to novel songs not available in the dataset. We show that we are able to learn a policy with up to 56\% F1 score on unseen songs.
arxiv情報
著者 | Cheng Qian,Julen Urain,Kevin Zakka,Jan Peters |
発行日 | 2024-07-25 16:37:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google