要約
マルチモーダルセンチメント分析(MSA)は、2つの重要な課題に直面しています。マルチモーダル融合の決定論理と、モーダル間情報密度の格差によって引き起こされるモダリティの不均衡の欠如です。
これらの問題に対処するために、Kan-MCPを提案します。これは、Kolmogorov-Arnold Networks(Kan)の解釈可能性をマルチモーダルクリーンパレート(McPareto)フレームワークの堅牢性と統合する斬新なフレームワークです。
第一に、Kanはその単変量関数分解を活用して、クロスモーダル相互作用の透明な分析を実現します。
この構造設計により、外部解釈ツールに依存することなく、機能変換を直接検査することで、高い表現力と解釈可能性の両方を確保できます。
第二に、提案されたMCPARETOは、モダリティの不均衡とノイズ干渉に対処することにより、堅牢性を高めます。
具体的には、機能の次元性を共同で除去および削減するModal Information Bottleneck(DRD-MIB)メソッドの次元削減と除去を導入します。
このアプローチは、重要な感情関連情報を保存しながらKANのモデリングの複雑さを減らすために、Kanに識別的な低次元の入力を提供します。
さらに、MCPARETOは、DRD-MIBによる精製機能出力を使用して、モダリティ全体で勾配の寄与を動的にバランスさせ、補助信号のロスレス送信を確保し、モダリティの不均衡を効果的に緩和します。
解釈可能性と堅牢性のこの相乗効果は、CMU-Mosi、CMU-Mosei、CH-SIMS V2などのベンチマークデータセットで優れたパフォーマンスを達成するだけでなく、Kanの解釈可能なアーキテクチャを通じて直感的な視覚化インターフェイスを提供します。
要約(オリジナル)
Multimodal Sentiment Analysis (MSA) faces two critical challenges: the lack of interpretability in the decision logic of multimodal fusion and modality imbalance caused by disparities in inter-modal information density. To address these issues, we propose KAN-MCP, a novel framework that integrates the interpretability of Kolmogorov-Arnold Networks (KAN) with the robustness of the Multimodal Clean Pareto (MCPareto) framework. First, KAN leverages its univariate function decomposition to achieve transparent analysis of cross-modal interactions. This structural design allows direct inspection of feature transformations without relying on external interpretation tools, thereby ensuring both high expressiveness and interpretability. Second, the proposed MCPareto enhances robustness by addressing modality imbalance and noise interference. Specifically, we introduce the Dimensionality Reduction and Denoising Modal Information Bottleneck (DRD-MIB) method, which jointly denoises and reduces feature dimensionality. This approach provides KAN with discriminative low-dimensional inputs to reduce the modeling complexity of KAN while preserving critical sentiment-related information. Furthermore, MCPareto dynamically balances gradient contributions across modalities using the purified features output by DRD-MIB, ensuring lossless transmission of auxiliary signals and effectively alleviating modality imbalance. This synergy of interpretability and robustness not only achieves superior performance on benchmark datasets such as CMU-MOSI, CMU-MOSEI, and CH-SIMS v2 but also offers an intuitive visualization interface through KAN’s interpretable architecture.
arxiv情報
著者 | Miaosen Luo,Yuncheng Jiang,Sijie Mai |
発行日 | 2025-04-16 15:00:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google