Dual-view Curricular Optimal Transport for Cross-lingual Cross-modal Retrieval

要約

クロスモーダル検索に関する現在の研究は、多数の英語指向の人間ラベル付き視覚言語コーパスが利用可能であるため、ほとんどが英語指向です。
英語以外のラベルが付いたデータの限界を打ち破るために、言語を超えたクロスモーダル検索 (CCR) がますます注目を集めています。
ほとんどの CCR 手法は、機械翻訳 (MT) を介して擬似並列視覚言語コーパスを構築し、言語間の伝達を実現します。
ただし、MT からの翻訳文は、一般に、対応する視覚コンテンツの説明が不完全です。
擬似並列データが正しく相関していると不適切に仮定すると、ネットワークがノイズの多い対応に過剰適合してしまいます。
したがって、CCR でノイズのある通信を学習するデュアルビュー Curricular Optimal Transport (DCOT) を提案します。
特に、言語横断とモーダル横断の両方の視点からサンプルペア相関と最適交通理論との信頼度を定量化し、2つの視点の学習段階に応じて交通コストを動的にモデル化するデュアルビューカリキュラム学習を設計します。

2 つの多言語画像テキスト データセットと 1 つのビデオテキスト データセットに対して広範な実験が行われ、その結果は、提案された方法の有効性と堅牢性を示しています。
さらに、私たちが提案した方法は、言語を超えた画像テキストベースラインへの優れた拡張性と、ドメイン外データに対する適切な一般化も示しています。

要約(オリジナル)

Current research on cross-modal retrieval is mostly English-oriented, as the availability of a large number of English-oriented human-labeled vision-language corpora. In order to break the limit of non-English labeled data, cross-lingual cross-modal retrieval (CCR) has attracted increasing attention. Most CCR methods construct pseudo-parallel vision-language corpora via Machine Translation (MT) to achieve cross-lingual transfer. However, the translated sentences from MT are generally imperfect in describing the corresponding visual contents. Improperly assuming the pseudo-parallel data are correctly correlated will make the networks overfit to the noisy correspondence. Therefore, we propose Dual-view Curricular Optimal Transport (DCOT) to learn with noisy correspondence in CCR. In particular, we quantify the confidence of the sample pair correlation with optimal transport theory from both the cross-lingual and cross-modal views, and design dual-view curriculum learning to dynamically model the transportation costs according to the learning stage of the two views. Extensive experiments are conducted on two multilingual image-text datasets and one video-text dataset, and the results demonstrate the effectiveness and robustness of the proposed method. Besides, our proposed method also shows a good expansibility to cross-lingual image-text baselines and a decent generalization on out-of-domain data.

arxiv情報

著者 Yabing Wang,Shuhui Wang,Hao Luo,Jianfeng Dong,Fan Wang,Meng Han,Xun Wang,Meng Wang
発行日 2023-09-11 13:44:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク