Enhancing Multi-modal Cooperation via Fine-grained Modality Valuation

要約

マルチモーダル学習の主なトピックの 1 つは、異なるモダリティからの異種情報を共同で組み込むことです。
しかし、ほとんどのモデルは、すべてのモダリティをうまく共同利用することができず、マルチモーダルの連携が不十分であることがよくあります。
学習済みの悪いモダリティを特定し、強化するためにいくつかの方法が提案されていますが、多くの場合、理論的な裏付けを備えたサンプルレベルでのマルチモーダル連携の詳細な観察を提供するのは困難です。
したがって、特にモダリティの不一致がサンプルごとに異なる可能性がある現実的なシナリオに直面した場合、モダリティ間のきめ細かい連携を合理的に観察し、改善することが不可欠です。
この目的を達成するために、サンプルレベルで各モダリティの寄与を評価するためのきめの細かいモダリティ評価指標を導入します。
モダリティ評価を通じて、残念なことに、マルチモーダル モデルは 1 つの特定のモダリティに依存する傾向があり、その結果、他のモダリティの寄与が低いことがわかりました。
私たちはこの問題をさらに分析し、寄与度の低いモダリティの識別能力を的を絞った方法で強化することで、モダリティ間の連携を改善します。
全体として、私たちの方法は、サンプルレベルでのきめの細かい単峰性の寄与を合理的に観察し、さまざまな多峰性モデルで大幅な改善を達成します。

要約(オリジナル)

One primary topic of multi-modal learning is to jointly incorporate heterogeneous information from different modalities. However, most models often suffer from unsatisfactory multi-modal cooperation, which could not jointly utilize all modalities well. Some methods are proposed to identify and enhance the worse learnt modality, but are often hard to provide the fine-grained observation of multi-modal cooperation at sample-level with theoretical support. Hence, it is essential to reasonably observe and improve the fine-grained cooperation between modalities, especially when facing realistic scenarios where the modality discrepancy could vary across different samples. To this end, we introduce a fine-grained modality valuation metric to evaluate the contribution of each modality at sample-level. Via modality valuation, we regretfully observe that the multi-modal model tends to rely on one specific modality, resulting in other modalities being low-contributing. We further analyze this issue and improve cooperation between modalities by enhancing the discriminative ability of low-contributing modalities in a targeted manner. Overall, our methods reasonably observe the fine-grained uni-modal contribution at sample-level and achieve considerable improvement on different multi-modal models.

arxiv情報

著者 Yake Wei,Ruoxuan Feng,Zihe Wang,Di Hu
発行日 2023-09-12 14:16:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM パーマリンク