要約
音声質問応答 (AQA) タスクには、音声イベント分類、音声キャプション、およびオープンエンド推論が含まれます。
最近、Large Audio Language Model (LALM) の出現により、AQA が注目を集めています。
現在の文献は、プロジェクション モジュールを介してオーディオ エンコーダをテキスト専用の大規模言語モデル (LLM) と統合することによって LALM を構築することに焦点を当てています。
LALM は一般的な音声理解には優れていますが、時間的推論には限界があるため、商用アプリケーションやデバイス上での展開が妨げられる可能性があります。
この論文では、音声時間推論におけるこれらの課題と限界について取り上げます。
まず、LLM を使用して信頼性の高い音声時間的質問と回答を生成するためのデータ拡張手法を紹介します。
次に、カリキュラム学習戦略を使用して既存のベースラインをさらに微調整し、微調整されたタスクのパフォーマンスを損なうことなく時間的推論に特化します。
パブリック オーディオ ベンチマーク データセットで最先端の LALM を使用してモデルのパフォーマンスを実証します。
3 番目に、AQA モデルをデバイス上でローカルに実装し、エッジ アプリケーションの CPU 推論を調査します。
要約(オリジナル)
The Audio Question Answering (AQA) task includes audio event classification, audio captioning, and open-ended reasoning. Recently, AQA has garnered attention due to the advent of Large Audio Language Models (LALMs). Current literature focuses on constructing LALMs by integrating audio encoders with text-only Large Language Models (LLMs) through a projection module. While LALMs excel in general audio understanding, they are limited in temporal reasoning, which may hinder their commercial applications and on-device deployment. This paper addresses these challenges and limitations in audio temporal reasoning. First, we introduce a data augmentation technique for generating reliable audio temporal questions and answers using an LLM. Second, we perform a further fine-tuning of an existing baseline using curriculum learning strategy to specialize in temporal reasoning without compromising performance on fine-tuned tasks. We demonstrate the performance of our model using state-of-the-art LALMs on public audio benchmark datasets. Third, we implement our AQA model on-device locally and investigate its CPU inference for edge applications.
arxiv情報
著者 | Arvind Krishna Sridhar,Yinyi Guo,Erik Visser |
発行日 | 2024-12-13 17:29:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google