Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval

要約

クロスモーダル検索手法は、共通の表現空間を共同学習することにより、視覚モダリティと言語モダリティの間に類似関係を構築します。
ただし、破損した画像、ペースの速いビデオ、詳細でないテキストなどの低品質データによって引き起こされる偶然の不確実性により、予測は信頼できないことがよくあります。
この論文では、固有のデータのあいまいさから生じる不確実性を定量化することで信頼できる予測を提供する、新しいプロトタイプベースの偶然性不確実性定量化 (PAU) フレームワークを提案します。
具体的には、まず、セマンティクス部分空間全体を表すために、モダリティごとにさまざまな学習可能なプロトタイプのセットを構築します。
次に、デンプスター・シェーファー理論と主観的論理理論を利用して、証拠をディリクレ分布パラメータと関連付けることによって、証拠に基づく理論的枠組みを構築します。
PAU モデルは、クロスモーダル検索に正確な不確実性と信頼性の高い予測をもたらします。
MSR-VTT、MSVD、DiDeMo、MS-COCO の 4 つの主要なベンチマーク データセットに対して広範な実験が実行され、私たちの手法の有効性が実証されています。
コードは https://github.com/leolee99/PAU からアクセスできます。

要約(オリジナル)

Cross-modal Retrieval methods build similarity relations between vision and language modalities by jointly learning a common representation space. However, the predictions are often unreliable due to the Aleatoric uncertainty, which is induced by low-quality data, e.g., corrupt images, fast-paced videos, and non-detailed texts. In this paper, we propose a novel Prototype-based Aleatoric Uncertainty Quantification (PAU) framework to provide trustworthy predictions by quantifying the uncertainty arisen from the inherent data ambiguity. Concretely, we first construct a set of various learnable prototypes for each modality to represent the entire semantics subspace. Then Dempster-Shafer Theory and Subjective Logic Theory are utilized to build an evidential theoretical framework by associating evidence with Dirichlet Distribution parameters. The PAU model induces accurate uncertainty and reliable predictions for cross-modal retrieval. Extensive experiments are performed on four major benchmark datasets of MSR-VTT, MSVD, DiDeMo, and MS-COCO, demonstrating the effectiveness of our method. The code is accessible at https://github.com/leolee99/PAU.

arxiv情報

著者 Hao Li,Jingkuan Song,Lianli Gao,Xiaosu Zhu,Heng Tao Shen
発行日 2023-12-22 13:37:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク