Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models

要約

音声質問応答タスクには、音声イベント分類、音声キャプション、およびオープンエンド推論が含まれます。
最近、大規模音声言語モデルの出現により、音声質問応答が注目を集めています。
現在の文献は、プロジェクション モジュールを介してオーディオ エンコーダとテキストのみの大規模言語モデルを統合することによって LALM を構築することに焦点を当てています。
大規模オーディオ言語モデルは、一般的なオーディオの理解には優れていますが、時間的推論には制限があり、商用アプリケーションやデバイスの展開に支障をきたす可能性があります。
この論文では、音声時間推論におけるこれらの課題と限界について取り上げます。
まず、LLM を使用して信頼性の高い音声時間的質問と回答を生成するためのデータ拡張手法を紹介します。
第二に、微調整されたタスクのパフォーマンスを損なうことなく、時間的推論に特化する継続的な微調整カリキュラム学習戦略を提案します。
最後に、LLM の支援を受けて、大規模オーディオ言語モデルの応答とグラウンド トゥルース データの間の相関関係をインテリジェントに測定する、信頼性が高く透明性の高い自動メトリクスを開発します。
パブリックオーディオベンチマークデータセットでSOTA LALMを使用して、提案した手法の有効性を実証します。

要約(オリジナル)

The Audio Question Answering task includes audio event classification, audio captioning, and open ended reasoning. Recently, Audio Question Answering has garnered attention due to the advent of Large Audio Language Models. Current literature focuses on constructing LALMs by integrating audio encoders with text only Large Language Models through a projection module. While Large Audio Language Models excel in general audio understanding, they are limited in temporal reasoning which may hinder their commercial applications and on device deployment. This paper addresses these challenges and limitations in audio temporal reasoning. First, we introduce a data augmentation technique for generating reliable audio temporal questions and answers using an LLM. Second, we propose a continued finetuning curriculum learning strategy to specialize in temporal reasoning without compromising performance on finetuned tasks. Finally, we develop a reliable and transparent automated metric, assisted by an LLM, to measure the correlation between Large Audio Language Model responses and ground truth data intelligently. We demonstrate the effectiveness of our proposed techniques using SOTA LALMs on public audio benchmark datasets.

arxiv情報

著者 Arvind Krishna Sridhar,Yinyi Guo,Erik Visser
発行日 2024-09-10 05:26:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク