要約
モダリティの欠落は、現実世界のマルチモーダル学習シナリオにおける一般的な課題であり、トレーニングとテストの両方で発生します。
欠落モダリティを管理するための既存の方法では、多くの場合、各モダリティまたは欠落ケースに対して個別のプロンプトを設計する必要があり、設計が複雑になり、学習するパラメーターの数が大幅に増加します。
モダリティの数が増えると、パラメータの冗長性により、これらの方法はますます非効率になります。
これらの問題に対処するために、我々は、事前学習されたマルチモーダル ネットワークのための新しいパラメーター効率的な方法である、証拠に基づくパラメーター効率的なプロンプティング (EPE-P) を提案します。
私たちのアプローチは、さまざまなモダリティにわたるプロンプト情報を統合する合理化された設計を導入し、複雑さを軽減し、冗長なパラメーターを軽減します。
さらに、欠落モダリティに関連する不確実性をより適切に処理し、モデルの意思決定を改善するために、証拠に基づく損失関数を提案します。
私たちの実験は、EPE-P が有効性と効率の両方の点で既存のプロンプトベースの方法よりも優れていることを示しています。
コードは https://github.com/Boris-Jobs/EPE-P_MLLMs-Robustness でリリースされています。
要約(オリジナル)
Missing modalities are a common challenge in real-world multimodal learning scenarios, occurring during both training and testing. Existing methods for managing missing modalities often require the design of separate prompts for each modality or missing case, leading to complex designs and a substantial increase in the number of parameters to be learned. As the number of modalities grows, these methods become increasingly inefficient due to parameter redundancy. To address these issues, we propose Evidence-based Parameter-Efficient Prompting (EPE-P), a novel and parameter-efficient method for pretrained multimodal networks. Our approach introduces a streamlined design that integrates prompting information across different modalities, reducing complexity and mitigating redundant parameters. Furthermore, we propose an Evidence-based Loss function to better handle the uncertainty associated with missing modalities, improving the model’s decision-making. Our experiments demonstrate that EPE-P outperforms existing prompting-based methods in terms of both effectiveness and efficiency. The code is released at https://github.com/Boris-Jobs/EPE-P_MLLMs-Robustness.
arxiv情報
著者 | Zhe Chen,Xun Lin,Yawen Cui,Zitong Yu |
発行日 | 2024-12-23 16:01:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google