Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models

要約

大規模音声言語モデル (LALM) は、音声認識機能を統合することで従来の大規模言語モデルを強化し、音声関連のタスクに取り組むことができるようにします。
これまでの研究は主に、さまざまなタスクにわたる LALM のパフォーマンスを評価することに焦点を当てていましたが、特に物体の幻覚などの問題に関するその信頼性は見落とされていました。
私たちの研究では、公的に入手可能な LALM の物体幻覚の程度を評価する方法を紹介します。
私たちの調査結果では、LALM はオーディオ コンテンツの理解という点では特殊なオーディオ キャプション モデルに匹敵しますが、識別的な質問、特にオーディオ クリップ内の特定のオブジェクト サウンドの存在の識別を必要とする質問に答えるのに苦労していることが明らかになりました。
この制限は、現在の LALM の重大な弱点、つまり、差別的なクエリに対する理解が不十分であることを浮き彫りにしています。
さらに、私たちは、差別的な質問に対する LALM のパフォーマンスを向上させるための即時エンジニアリングの可能性を探ります。

要約(オリジナル)

Large audio-language models (LALMs) enhance traditional large language models by integrating audio perception capabilities, allowing them to tackle audio-related tasks. Previous research has primarily focused on assessing the performance of LALMs across various tasks, yet overlooking their reliability, particularly concerning issues like object hallucination. In our study, we introduce methods to assess the extent of object hallucination of publicly available LALMs. Our findings reveal that LALMs are comparable to specialized audio captioning models in their understanding of audio content, but struggle to answer discriminative questions, specifically those requiring the identification of the presence of particular object sounds within an audio clip. This limitation highlights a critical weakness in current LALMs: their inadequate understanding of discriminative queries. Moreover, we explore the potential of prompt engineering to enhance LALMs’ performance on discriminative questions.

arxiv情報

著者 Chun-Yi Kuan,Wei-Ping Huang,Hung-yi Lee
発行日 2024-06-12 16:51:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク