GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities

要約

非音声音と非言語音声を知覚して理解することは、周囲と対話するのに役立つ意思決定を行うために不可欠です。
この論文では、高度な音声理解と複雑な推論能力を備えた新しい汎用大規模音声言語モデル (LALM) である GAMA を提案します。
GAMA は、オーディオ エンコーダーの複数のレイヤーからの機能を集約するマルチレイヤー アグリゲーターであるカスタム Audio Q-Former の機能を含む、複数のタイプのオーディオ表現と LLM を統合することによって構築されます。
大規模な音声言語データセットに基づいて GAMA を微調整し、音声理解機能を強化します。
次に、CompA-R (複雑なオーディオ推論のための命令チューニング) を提案します。これは、モデルが入力オーディオに対して複雑な推論を実行することを要求する命令を含む、合成的に生成された命令チューニング (IT) データセットです。
CompA-R を使用して GAMA を命令調整して、GAMA に複雑な推論能力を与えます。さらに、入力音声のイベント タグを活用することで、高レベルの意味論的証拠を備えた入力としてソフト プロンプトを追加します。
最後に、複雑な推論を必要とする自由形式の音声質問応答における LALM の能力を評価するための、人間によるラベル付けされた評価データセットである CompA-R-test も提案します。
自動化された専門家による人間による評価を通じて、GAMA が文献に記載されている他のすべての LALM よりも、多様な音声理解タスクに関して 1% ~ 84% のマージンで優れていることを示しています。
さらに、CompA-R 上で IT 化された GAMA は、複雑な推論と指示に従う機能において優れていることが証明されています。

要約(オリジナル)

Perceiving and understanding non-speech sounds and non-verbal speech is essential to making decisions that help us interact with our surroundings. In this paper, we propose GAMA, a novel General-purpose Large Audio-Language Model (LALM) with Advanced Audio Understanding and Complex Reasoning Abilities. We build GAMA by integrating an LLM with multiple types of audio representations, including features from a custom Audio Q-Former, a multi-layer aggregator that aggregates features from multiple layers of an audio encoder. We fine-tune GAMA on a large-scale audio-language dataset, which augments it with audio understanding capabilities. Next, we propose CompA-R (Instruction-Tuning for Complex Audio Reasoning), a synthetically generated instruction-tuning (IT) dataset with instructions that require the model to perform complex reasoning on the input audio. We instruction-tune GAMA with CompA-R to endow it with complex reasoning abilities, where we further add a soft prompt as input with high-level semantic evidence by leveraging event tags of the input audio. Finally, we also propose CompA-R-test, a human-labeled evaluation dataset for evaluating the capabilities of LALMs on open-ended audio question-answering that requires complex reasoning. Through automated and expert human evaluations, we show that GAMA outperforms all other LALMs in literature on diverse audio understanding tasks by margins of 1%-84%. Further, GAMA IT-ed on CompA-R proves to be superior in its complex reasoning and instruction following capabilities.

arxiv情報

著者 Sreyan Ghosh,Sonal Kumar,Ashish Seth,Chandra Kiran Reddy Evuru,Utkarsh Tyagi,S Sakshi,Oriol Nieto,Ramani Duraiswami,Dinesh Manocha
発行日 2024-06-17 17:31:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク