要約
最近、単一の統合モデルを使用してさまざまなオーディオ タスクに同時に取り組むために、さまざまなオーディオ LLM (ALLM) が検討されています。
ALLM の既存の評価は主に単一オーディオ タスクに焦点を当てていますが、実際のアプリケーションでは複数のオーディオ ストリームを同時に処理することがよくあります。
このギャップを埋めるために、音声と音声の両方のシナリオを含む 11 のマルチオーディオ タスクからの 20 個のデータセットで構成される最初のマルチオーディオ評価 (MAE) ベンチマークを提案します。
MAE に関する包括的な実験により、既存の ALLM は個々のオーディオ入力の主要なオーディオ要素を理解する点では強力であるものの、マルチオーディオ シナリオの処理に苦労していることが実証されました。
この目的を達成するために、私たちは、提案した合成データの弁別学習を使用して、複数の類似したオーディオ間のオーディオコンテキストをキャプチャする新しいマルチオーディオ LLM (MALLM) を提案します。
結果は、提案された MALLM がすべてのベースラインを上回っており、人間による注釈を必要とせずに合成データを使用して高いデータ効率を達成していることを示しています。
提案された MALLM は、ALLM にマルチオーディオ処理時代への扉を開き、人間の聴覚能力を機械で再現することに私たちを近づけます。
要約(オリジナル)
Various audio-LLMs (ALLMs) have been explored recently for tackling different audio tasks simultaneously using a single, unified model. While existing evaluations of ALLMs primarily focus on single-audio tasks, real-world applications often involve processing multiple audio streams simultaneously. To bridge this gap, we propose the first multi-audio evaluation (MAE) benchmark that consists of 20 datasets from 11 multi-audio tasks encompassing both speech and sound scenarios. Comprehensive experiments on MAE demonstrate that the existing ALLMs, while being powerful in comprehending primary audio elements in individual audio inputs, struggling to handle multi-audio scenarios. To this end, we propose a novel multi-audio-LLM (MALLM) to capture audio context among multiple similar audios using discriminative learning on our proposed synthetic data. The results demonstrate that the proposed MALLM outperforms all baselines and achieves high data efficiency using synthetic data without requiring human annotations. The proposed MALLM opens the door for ALLMs towards multi-audio processing era and brings us closer to replicating human auditory capabilities in machines.
arxiv情報
著者 | Yiming Chen,Xianghu Yue,Xiaoxue Gao,Chen Zhang,Luis Fernando D’Haro,Robby T. Tan,Haizhou Li |
発行日 | 2024-11-06 10:27:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google