Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples

要約

オーディオ認識の大規模な言語モデル(ALLMS)の最近の進歩により、オーディオ入力を処理および理解することができます。
ただし、これらのモデルはしばしば存在しないサウンドイベントを幻覚させ、実際のアプリケーションでの信頼性を低下させます。
これに対処するために、バックボーンLLMの合成データを使用して現在のサウンドと存在しないサウンドを区別するALLMSの能力を高める対照的なトレーニング方法である、リッスン(拡張された負のサンプルを介してサウンドを識別することを学ぶ)を提案します。
以前のアプローチとは異なり、私たちの方法では、LLMパラメーターの変更を必要とせず、軽量アダプターを介してオーディオ表現を効率的に統合します。
実験は、既存のオーディオ質問と推論ベンチマークで印象的なパフォーマンスを維持しながら、聴覚を効果的に幻覚を軽減することを示しています。
同時に、データと計算の両方でより効率的です。

要約(オリジナル)

Recent advancements in audio-aware large language models (ALLMs) enable them to process and understand audio inputs. However, these models often hallucinate non-existent sound events, reducing their reliability in real-world applications. To address this, we propose LISTEN (Learning to Identify Sounds Through Extended Negative Samples), a contrastive-like training method that enhances ALLMs’ ability to distinguish between present and absent sounds using synthesized data from the backbone LLM. Unlike prior approaches, our method requires no modification to LLM parameters and efficiently integrates audio representations via a lightweight adapter. Experiments show that LISTEN effectively mitigates hallucinations while maintaining impressive performance on existing audio question and reasoning benchmarks. At the same time, it is more efficient in both data and computation.

arxiv情報

著者 Chun-Yi Kuan,Hung-yi Lee
発行日 2025-05-20 15:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク