要約
タイトル:Noisy Correspondence Learning with Meta Similarity Correction
要約:
– 複数のモダリティ学習は、異なるタイプのメディアデータのクロスモダル検索タスクで成功を収めている。
– ただし、これまでの進歩は、メディアデータ間の正しい対応に依存している。
– 実際には、多くのデータセットはインターネットから収集され、一致しないペアが含まれることが不可避であり、理想的なデータを収集することは高価で時間がかかる。
– ノイズが含まれる一致データセットを処理することで、クロスモダル検索方法が一致しないデータを誤って類似していると判断するため、性能低下が発生する。
– この問題に対処するために、Meta Similarity Correction Network(MSCN)を提案して、信頼できる類似度スコアを提供する。
– 二値分類タスクをメタプロセスと見なし、MSCNが陽性および陰性のメタデータから識別を学習するように促すという方法が提案される。
– ノイズの影響を軽減するため、メタデータを事前知識として使用して、ノイズのあるサンプルを除去する効果的なデータ浄化戦略を設計する。
– Flickr30K、MS-COCO、およびConceptual Captionsを含む合成および実世界のノイズを両方で強化することを示すために、広範な実験が実施される。
要約(オリジナル)
Despite the success of multimodal learning in cross-modal retrieval task, the remarkable progress relies on the correct correspondence among multimedia data. However, collecting such ideal data is expensive and time-consuming. In practice, most widely used datasets are harvested from the Internet and inevitably contain mismatched pairs. Training on such noisy correspondence datasets causes performance degradation because the cross-modal retrieval methods can wrongly enforce the mismatched data to be similar. To tackle this problem, we propose a Meta Similarity Correction Network (MSCN) to provide reliable similarity scores. We view a binary classification task as the meta-process that encourages the MSCN to learn discrimination from positive and negative meta-data. To further alleviate the influence of noise, we design an effective data purification strategy using meta-data as prior knowledge to remove the noisy samples. Extensive experiments are conducted to demonstrate the strengths of our method in both synthetic and real-world noises, including Flickr30K, MS-COCO, and Conceptual Captions.
arxiv情報
| 著者 | Haochen Han,Kaiyao Miao,Qinghua Zheng,Minnan Luo | 
| 発行日 | 2023-04-13 05:20:45+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, OpenAI
