要約
テキストと画像のペアデータに対するウェブスケールの学習は、マルチモーダル学習においてますます中心的なものとなりつつあるが、野生のデータセットの非常にノイズの多い性質が課題となっている。標準的なデータフィルタリングアプローチは、不一致なテキストと画像のペアを削除することには成功するが、意味的に関連するが非常に抽象的または主観的なテキストを許可する。これらのアプローチには、ノイズの多いデータセットにおいて学習のための最も強いシグナルを提供する最も具体的なサンプルを分離するきめ細かな能力が欠けている。この研究では、マルチモーダル学習で使用するために、画像参照なしでキャプションテキストを評価し、その具体性と関連性を測定する新しい指標、画像キャプションの具体性を提案する。我々のアプローチは、マルチモーダル表現における視覚的意味的情報損失を測定するための強力な基礎モデルを活用する。我々は、これが、単一単語と文レベルの両方のテキストにおける具体性の人間の評価と強く相関することを実証する。さらに、ICCを用いたキュレーションが既存のアプローチを補完することを示す:ICCは、マルチモーダルなウェブスケールのデータセットから最高品質のサンプルを選択することに成功し、リソースに制約のある環境での効率的な学習を可能にする。
要約(オリジナル)
Web-scale training on paired text-image data is becoming increasingly central to multimodal learning, but is challenged by the highly noisy nature of datasets in the wild. Standard data filtering approaches succeed in removing mismatched text-image pairs, but permit semantically related but highly abstract or subjective text. These approaches lack the fine-grained ability to isolate the most concrete samples that provide the strongest signal for learning in a noisy dataset. In this work, we propose a new metric, image caption concreteness, that evaluates caption text without an image reference to measure its concreteness and relevancy for use in multimodal learning. Our approach leverages strong foundation models for measuring visual-semantic information loss in multimodal representations. We demonstrate that this strongly correlates with human evaluation of concreteness in both single-word and sentence-level texts. Moreover, we show that curation using ICC complements existing approaches: It succeeds in selecting the highest quality samples from multimodal web-scale datasets to allow for efficient training in resource-constrained settings.
arxiv情報
著者 | Moran Yanuka,Morris Alper,Hadar Averbuch-Elor,Raja Giryes |
発行日 | 2024-03-02 20:36:10+00:00 |
arxivサイト | arxiv_id(pdf) |