More than Vanilla Fusion: a Simple, Decoupling-free, Attention Module for Multimodal Fusion Based on Signal Theory


バニラ フュージョン手法は、依然として主流のオーディオビジュアルタスクの大部分を占めています。
ただし、理論的な観点から見たバニラ フュージョンの有効性については、まだ議論する価値があります。
そこで、減結合のない勾配変調方式が前述のアテンション モジュールと連携して設計されており、減結合されたものに比べてさまざまな利点があります。
実験結果によると、わずか数行のコードで、いくつかのマルチモーダル分類方法のパフォーマンスが最大 2.0% 向上することがわかりました。
最後に、他の融合タスクの定量的評価により、追加のアプリケーション シナリオの可能性が明らかになります。


The vanilla fusion methods still dominate a large percentage of mainstream audio-visual tasks. However, the effectiveness of vanilla fusion from a theoretical perspective is still worth discussing. Thus, this paper reconsiders the signal fused in the multimodal case from a bionics perspective and proposes a simple, plug-and-play, attention module for vanilla fusion based on fundamental signal theory and uncertainty theory. In addition, previous work on multimodal dynamic gradient modulation still relies on decoupling the modalities. So, a decoupling-free gradient modulation scheme has been designed in conjunction with the aforementioned attention module, which has various advantages over the decoupled one. Experiment results show that just a few lines of code can achieve up to 2.0% performance improvements to several multimodal classification methods. Finally, quantitative evaluation of other fusion tasks reveals the potential for additional application scenarios.


著者 Peiwen Sun,Yifan Zhang,Zishan Liu,Donghao Chen,Honggang Zhang
発行日 2023-12-12 12:22:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS パーマリンク