要約
マルチモーダルAIモデルは、ヘルスケア、ファイナンス、自律運転などの分野でますます使用されており、複数のソースや画像、テキスト、オーディオ、ビデオなどのモダリティから情報が描かれています。
ただし、騒音、不十分な証拠、またはモダリティ間の対立から生じる不確実性を効果的に管理することは、信頼できる意思決定に不可欠です。
たとえば、現在の不確実性認識機械学習方法は、たとえば、平均化や証拠の蓄積を活用して、高い紛争シナリオの不確実性を過小評価しています。
さらに、最先端の証拠平均戦略は不変の順序ではなく、複数のモダリティにスケーリングできません。
これらの課題に対処するために、順序不変の証拠融合を備えた新しいマルチモーダル学習方法を提案し、信頼できないモダリティが検出された場合に不確実な質量を再配分する競合ベースの割引メカニズムを導入します。
理論分析と実験的検証の両方を提供し、以前の研究とは異なり、提案されたアプローチは、提供された不確実性の推定に基づいて矛盾するサンプルと非紛争サンプルを効果的に区別し、不確実性に基づく紛争検出の以前のモデルを上回ることを実証します。
要約(オリジナル)
Multimodal AI models are increasingly used in fields like healthcare, finance, and autonomous driving, where information is drawn from multiple sources or modalities such as images, texts, audios, videos. However, effectively managing uncertainty – arising from noise, insufficient evidence, or conflicts between modalities – is crucial for reliable decision-making. Current uncertainty-aware machine learning methods leveraging, for example, evidence averaging, or evidence accumulation underestimate uncertainties in high-conflict scenarios. Moreover, the state-of-the-art evidence averaging strategy is not order invariant and fails to scale to multiple modalities. To address these challenges, we propose a novel multimodal learning method with order-invariant evidence fusion and introduce a conflict-based discounting mechanism that reallocates uncertain mass when unreliable modalities are detected. We provide both theoretical analysis and experimental validation, demonstrating that unlike the previous work, the proposed approach effectively distinguishes between conflicting and non-conflicting samples based on the provided uncertainty estimates, and outperforms the previous models in uncertainty-based conflict detection.
arxiv情報
著者 | Grigor Bezirganyan,Sana Sellami,Laure Berti-Équille,Sébastien Fournier |
発行日 | 2025-03-28 14:12:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google