Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning

要約

大規模音声言語モデル (LALM) の最近の進歩により、音声および音声情報の理解と推論において優れた能力が示されています。
しかし、これらのモデルは依然として、存在しない音声イベントの幻覚、音声イベントの順序の誤認、音源の誤った帰属などの課題に直面しており、信頼性や現実世界への応用が損なわれています。
これらの問題を体系的に評価するために、オーディオ内のオブジェクトの存在、時間的順序、およびオブジェクトの属性という 3 つの異なるタスクを提案します。
これらのタスクは、重要なオーディオ情報の側面に対するモデルの理解を評価します。
私たちの実験結果は、これらの基本的なタスクの限界を明らかにし、特定の音声イベントの認識、イベントシーケンスの決定、音源の特定においてより優れたモデルの必要性を強調しています。
これらの領域のパフォーマンスを向上させるために、マルチターン思考連鎖アプローチを導入します。これにより、提案されたタスク全体でモデルのパフォーマンスが大幅に向上することが実証されています。

要約(オリジナル)

Recent advancements in large audio-language models (LALMs) have shown impressive capabilities in understanding and reasoning about audio and speech information. However, these models still face challenges, including hallucinating non-existent sound events, misidentifying the order of sound events, and incorrectly attributing sound sources, which undermine their reliability and real-world application. To systematically evaluate these issues, we propose three distinct tasks: object existence, temporal order, and object attribute within audio. These tasks assess the models’ comprehension of critical audio information aspects. Our experimental results reveal limitations in these fundamental tasks, underscoring the need for better models in recognizing specific sound events, determining event sequences, and identifying sound sources. To improve performance in these areas, we introduce a multi-turn chain-of-thought approach, which demonstrates significantly improved model performance across the proposed tasks.

arxiv情報

著者 Chun-Yi Kuan,Hung-yi Lee
発行日 2024-10-21 15:55:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク