Linking Representations with Multimodal Contrastive Learning

要約

タイトル:多様な文書データセットをクラス分けするための多面的対比学習による表現のリンク

要約:

– 多くのアプリケーションでは、さまざまな文書データセットに含まれるインスタンスをクラス分けする必要があります。
– 広く使用されている方法は、ディープラーニングを採用せず、文書の本質的に多面的な性質を活用していません。
– この研究では、Contrastively Linking Pooled Pre-trained Embeddings(CLIPPINGS)という多面的なフレームワークが開発されています。
– CLIPPINGSは、対象インスタンスのプールされたイメージ-テキスト表現が同じクラスの表現に近く、異なるクラスの表現から遠くなるように学習するため、コントラスト性のある言語-イメージの事前トレーニングを通じて整列した対称ビジョンと言語バイエンコーダーのエンドツーエンドトレーニングを採用しています。
– 推論時には、オフラインの例示埋め込みインデックスから最も近い隣接インスタンスを取得するか、表現をクラスタリングすることで、インスタンスをリンクすることができます。
– この研究では、mid-20th century Japanの会社レベルの財務記録をリンクすることにより、包括的な供給チェーンを構築する2つの難しいアプリケーションが検討されています。
– CLIPPINGSは、広く使用されている文字列マッチング方法を大幅に上回り、単一モーダル方法も上回ります。
– さらに、OCRとイメージのペアだけでトレーニングされた純粋な自己監督モデルも、ラベルを必要とせずに、広く使用されている文字列マッチング方法を上回りました。

要約(オリジナル)

Many applications require grouping instances contained in diverse document datasets into classes. Most widely used methods do not employ deep learning and do not exploit the inherently multimodal nature of documents. Notably, record linkage is typically conceptualized as a string-matching problem. This study develops CLIPPINGS, (Contrastively Linking Pooled Pre-trained Embeddings), a multimodal framework for record linkage. CLIPPINGS employs end-to-end training of symmetric vision and language bi-encoders, aligned through contrastive language-image pre-training, to learn a metric space where the pooled image-text representation for a given instance is close to representations in the same class and distant from representations in different classes. At inference time, instances can be linked by retrieving their nearest neighbor from an offline exemplar embedding index or by clustering their representations. The study examines two challenging applications: constructing comprehensive supply chains for mid-20th century Japan through linking firm level financial records – with each firm name represented by its crop in the document image and the corresponding OCR – and detecting which image-caption pairs in a massive corpus of historical U.S. newspapers came from the same underlying photo wire source. CLIPPINGS outperforms widely used string matching methods by a wide margin and also outperforms unimodal methods. Moreover, a purely self-supervised model trained on only image-OCR pairs also outperforms popular string-matching methods without requiring any labels.

arxiv情報

著者 Abhishek Arora,Xinmei Yang,Shao-Yu Jheng,Melissa Dell
発行日 2023-04-11 01:34:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV, econ.GN, q-fin.EC パーマリンク