要約
マルチモーダルオーディオ言語モデル(ALMS)は、オーディオとテキストの両方を理解し、推論することができます。
通常、推論パフォーマンスはモデルサイズと相関しており、モデルが80億パラメーターを超える最良の結果が達成されます。
ただし、エッジデバイスの潜在的なアプリケーションにもかかわらず、推論タスクを実行できる小さなオーディオ言語モデルを可能にすることを検討したことはありません。
このギャップに対処するために、推論のために特別に設計された小さな音声言語モデルであるMellowを紹介します。
Mellowは、既存の小さなオーディオ言語モデル間で最先端のパフォーマンスを達成し、推論能力のいくつかの大きなモデルを上回ります。
たとえば、MMAUでMellowは52.11でスコアを記録します。これは、Sota QWen2オーディオ(52.5のスコア)に匹敵し、パラメーターの50倍を使用し、60倍のデータ(オーディオHR)でトレーニングされています。
まろやかな訓練をするために、モデルのオーディオグラウンドの推論を強化するために設計されたデータセットであるReasoaqaを紹介します。
既存のデータセット(データの30%)と合成生成データ(70%)の混合物で構成されています。
合成データセットは、オーディオモデル(LLM)がオーディオイベント、オブジェクト、アコースティックシーン、信号特性、セマンティクス、リスナーの感情に焦点を当てた詳細な複数選択の質問を生成するオーディオキャプションデータセットから派生しています。
Mellowの推論能力を評価するために、それを多様なタスクのセットにベンチマークし、オーディオ理解、演ductive的推論、比較推論など、分散型と分散型の両方のデータの両方を評価します。
最後に、投影層の選択、合成データ生成方法、および推論パフォーマンスに対する言語モデルの事前販売の影響を調査するために、広範なアブレーション研究を実施します。
当社のトレーニングデータセット、調査結果、ベースラインは、推論できる小さな施しを開発する方法を開きます。
要約(オリジナル)
Multimodal Audio-Language Models (ALMs) can understand and reason over both audio and text. Typically, reasoning performance correlates with model size, with the best results achieved by models exceeding 8 billion parameters. However, no prior work has explored enabling small audio-language models to perform reasoning tasks, despite the potential applications for edge devices. To address this gap, we introduce Mellow, a small Audio-Language Model specifically designed for reasoning. Mellow achieves state-of-the-art performance among existing small audio-language models and surpasses several larger models in reasoning capabilities. For instance, Mellow scores 52.11 on MMAU, comparable to SoTA Qwen2 Audio (which scores 52.5) while using 50 times fewer parameters and being trained on 60 times less data (audio hrs). To train Mellow, we introduce ReasonAQA, a dataset designed to enhance audio-grounded reasoning in models. It consists of a mixture of existing datasets (30% of the data) and synthetically generated data (70%). The synthetic dataset is derived from audio captioning datasets, where Large Language Models (LLMs) generate detailed and multiple-choice questions focusing on audio events, objects, acoustic scenes, signal properties, semantics, and listener emotions. To evaluate Mellow’s reasoning ability, we benchmark it on a diverse set of tasks, assessing on both in-distribution and out-of-distribution data, including audio understanding, deductive reasoning, and comparative reasoning. Finally, we conduct extensive ablation studies to explore the impact of projection layer choices, synthetic data generation methods, and language model pretraining on reasoning performance. Our training dataset, findings, and baseline pave the way for developing small ALMs capable of reasoning.
arxiv情報
著者 | Soham Deshmukh,Satvik Dixit,Rita Singh,Bhiksha Raj |
発行日 | 2025-03-11 15:29:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google