要約
大規模なオーディオ言語モデル(LALMS)の内部メカニズムを理解することは、その動作を解釈し、パフォーマンスを改善するために重要です。
この作業は、LALMSが聴覚属性を内部的に認識し、認識する方法の最初の詳細な分析を示しています。
3つの最先端のラームに語彙投影を適用することにより、属性情報がレイヤーとトークンの位置を越えてどのように進化するかを追跡します。
属性情報は一般に、認識が失敗すると層の深さとともに減少し、以前の層での解決属性はより良い精度と相関することがわかります。
さらに、LALMSは、属性状態の属性状態に必要な情報を集約するのではなく、属性を予測するために聴覚入力のクエリを照会することに大きく依存しています。
調査結果に基づいて、ラームを強化する方法を実証します。
私たちの結果は、聴覚属性処理に関する洞察を提供し、将来の改善への道を開いています。
要約(オリジナル)
Understanding the internal mechanisms of large audio-language models (LALMs) is crucial for interpreting their behavior and improving performance. This work presents the first in-depth analysis of how LALMs internally perceive and recognize auditory attributes. By applying vocabulary projection on three state-of-the-art LALMs, we track how attribute information evolves across layers and token positions. We find that attribute information generally decreases with layer depth when recognition fails, and that resolving attributes at earlier layers correlates with better accuracy. Moreover, LALMs heavily rely on querying auditory inputs for predicting attributes instead of aggregating necessary information in hidden states at attribute-mentioning positions. Based on our findings, we demonstrate a method to enhance LALMs. Our results offer insights into auditory attribute processing, paving the way for future improvements.
arxiv情報
| 著者 | Chih-Kai Yang,Neo Ho,Yi-Jyun Lee,Hung-yi Lee |
| 発行日 | 2025-06-05 15:22:47+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google