要約
人気の SlotAttendant アーキテクチャなどの現在のオブジェクト中心の学習モデルでは、教師なしのビジュアル シーンの分解が可能です。
私たちの新しい MusicSlots メソッドは、SlotAttendant をオーディオ ドメインに適応させて、教師なしの音楽分解を実現します。
視覚における不透明性と遮蔽の概念には聴覚に類似した概念がないため、視覚オブジェクト中心モデルのデコーダーにおけるアルファ マスクのソフトマックス正規化は、音声オブジェクトの分解にはあまり適していません。
MusicSlots はこの問題を克服します。
西洋の調性音楽に関するオブジェクト中心の学習を評価するために調整されたスペクトログラム ベースのマルチオブジェクト音楽データセットを紹介します。
MusicSlots は、教師なしノートの検出で優れたパフォーマンスを実現し、教師ありノートのプロパティ予測タスクで確立されたいくつかのベースラインを上回ります。
要約(オリジナル)
Current object-centric learning models such as the popular SlotAttention architecture allow for unsupervised visual scene decomposition. Our novel MusicSlots method adapts SlotAttention to the audio domain, to achieve unsupervised music decomposition. Since concepts of opacity and occlusion in vision have no auditory analogues, the softmax normalization of alpha masks in the decoders of visual object-centric models is not well-suited for decomposing audio objects. MusicSlots overcomes this problem. We introduce a spectrogram-based multi-object music dataset tailored to evaluate object-centric learning on western tonal music. MusicSlots achieves good performance on unsupervised note discovery and outperforms several established baselines on supervised note property prediction tasks.
arxiv情報
著者 | Joonsu Gha,Vincent Herrmann,Benjamin Grewe,Jürgen Schmidhuber,Anand Gopalakrishnan |
発行日 | 2023-11-13 18:21:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google