DASB — Discrete Audio and Speech Benchmark

要約

離散オーディオ トークンは、オーディオと言語処理を接続し、最新のマルチモーダルな大規模言語モデルの作成を可能にする可能性があるため、最近大きな注目を集めています。
理想的なオーディオ トークンは、パラ言語情報、話者の身元、その他の詳細とともに、音声および意味のコンテンツを効果的に保存する必要があります。
最近、いくつかのタイプのオーディオ トークンが提案されていますが、既存の研究における評価設定が一貫していないため、さまざまなタスクに最適なトークナイザーを特定することは困難です。
このギャップに対処するために、音声認識、話者の識別と検証、感情認識、キーワードの検出、意図など、幅広い識別タスクにわたる離散音声トークンのベンチマークを行うための包括的なリーダーボードである離散音声および音声ベンチマーク (DASB) をリリースします。
分類のほか、音声強調、分離、テキスト読み上げなどの生成タスクも含まれます。
私たちの結果は、ほとんどの識別および生成タスクにおいて、平均してセマンティック トークンが圧縮トークンよりも優れたパフォーマンスを発揮することを示しています。
ただし、セマンティック トークンと標準の連続表現との間のパフォーマンスのギャップは依然として大きく、この分野でのさらなる研究の必要性が浮き彫りになっています。

要約(オリジナル)

Discrete audio tokens have recently gained considerable attention for their potential to connect audio and language processing, enabling the creation of modern multimodal large language models. Ideal audio tokens must effectively preserve phonetic and semantic content along with paralinguistic information, speaker identity, and other details. While several types of audio tokens have been recently proposed, identifying the optimal tokenizer for various tasks is challenging due to the inconsistent evaluation settings in existing studies. To address this gap, we release the Discrete Audio and Speech Benchmark (DASB), a comprehensive leaderboard for benchmarking discrete audio tokens across a wide range of discriminative tasks, including speech recognition, speaker identification and verification, emotion recognition, keyword spotting, and intent classification, as well as generative tasks such as speech enhancement, separation, and text-to-speech. Our results show that, on average, semantic tokens outperform compression tokens across most discriminative and generative tasks. However, the performance gap between semantic tokens and standard continuous representations remains substantial, highlighting the need for further research in this field.

arxiv情報

著者 Pooneh Mousavi,Luca Della Libera,Jarod Duret,Artem Ploujnikov,Cem Subakan,Mirco Ravanelli
発行日 2024-06-21 17:07:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク