要約
コード認識は、音楽分析におけるコードの抽象的で記述的な性質のため、音楽情報の検索の重要なタスクとして機能します。
オーディオコード認識システムは、小さな語彙(たとえば、メジャー/マイナーコード)に対してかなりの精度を達成していますが、大規模な弦の認識は依然として困難な問題です。
この複雑さは、ほとんどのデータセットで希少なコードタイプが過小評価されているコードの固有の長期尾の分布からも発生し、トレーニングサンプルが不十分です。
効果的なコード認識には、オーディオシーケンスからのコンテキスト情報を活用する必要がありますが、畳み込みニューラルネットワークの組み合わせ、双方向の長期メモリネットワーク、双方向変圧器の組み合わせなど、既存のモデルは、長期依存関係をキャプチャし、大規模なパフォーマンスを示す上位のパフォーマンスを示す必要があります。
語彙コード認識タスク。
この作品は、大きな語彙のための構造的コード認識(トライアド、ベース、セブンス)に取り組むように設計された新しい配座異性体ベースのアーキテクチャであるChordformerを提案します。
CHORDFORMERは、コンボリューションニューラルネットワークを変圧器と統合するコンフォーマーブロックをレバレッジするため、モデルがローカルパターンとグローバル依存関係の両方を効果的にキャプチャできるようにします。
再重み付けされた損失関数と構造化されたコード表現を介したクラスの不均衡などの課題に対処することにより、Chordformerは最先端のモデルよりも優れており、フレームごとの精度の2%の改善と、クラスごとの精度の6%の増加を達成します。
-vocabulary Chordデータセット。
さらに、Chordformerはクラスの不均衡の取り扱いに優れており、コードタイプ全体で堅牢でバランスの取れた認識を提供します。
このアプローチは、理論的な音楽知識と実用的なアプリケーションの間のギャップを埋め、大規模なコード認識の分野を進めます。
要約(オリジナル)
Chord recognition serves as a critical task in music information retrieval due to the abstract and descriptive nature of chords in music analysis. While audio chord recognition systems have achieved significant accuracy for small vocabularies (e.g., major/minor chords), large-vocabulary chord recognition remains a challenging problem. This complexity also arises from the inherent long-tail distribution of chords, where rare chord types are underrepresented in most datasets, leading to insufficient training samples. Effective chord recognition requires leveraging contextual information from audio sequences, yet existing models, such as combinations of convolutional neural networks, bidirectional long short-term memory networks, and bidirectional transformers, face limitations in capturing long-term dependencies and exhibit suboptimal performance on large-vocabulary chord recognition tasks. This work proposes ChordFormer, a novel conformer-based architecture designed to tackle structural chord recognition (e.g., triads, bass, sevenths) for large vocabularies. ChordFormer leverages conformer blocks that integrate convolutional neural networks with transformers, thus enabling the model to capture both local patterns and global dependencies effectively. By addressing challenges such as class imbalance through a reweighted loss function and structured chord representations, ChordFormer outperforms state-of-the-art models, achieving a 2% improvement in frame-wise accuracy and a 6% increase in class-wise accuracy on large-vocabulary chord datasets. Furthermore, ChordFormer excels in handling class imbalance, providing robust and balanced recognition across chord types. This approach bridges the gap between theoretical music knowledge and practical applications, advancing the field of large-vocabulary chord recognition.
arxiv情報
著者 | Muhammad Waseem Akram,Stefano Dettori,Valentina Colla,Giorgio Carlo Buttazzo |
発行日 | 2025-02-17 14:35:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google