Linking Representations with Multimodal Contrastive Learning

要約

タイトル:マルチモーダルコントラスト学習による表現のリンク

要約:

– 多様なドキュメントデータセット内のインスタンスをクラスにグループ化するアプリケーションが多数存在します。
– 広く使用されている方法は、深層学習を使用せず、また、文書の多様な性質を活用していません。
– この研究は、文書のレコードリンクを行うためのマルチモーダルフレームワークであるCLIPPINGSを開発しました。
– CLIPPINGSは、対称的なビジョンと言語のバイエンコーダーをエンドツーエンドでトレーニングし、コントラスト言語-画像の事前トレーニングを通して整合させ、与えられたインスタンスのプールされた画像-テキスト表現が同じクラス内の表現に近く、異なるクラス内の表現からは遠くなるメトリックスペースを学習します。
– 推論時には、オフラインの例示埋め込みインデックスから最近傍を回収するか、表現をクラスタリングしてインスタンスをリンクできます。
– この研究は、2つの厳しいアプリケーションを評価しました。
– 1つは、各企業名がドキュメント画像内の作物で表され、対応するOCRで表される企業レベルの財務記録をリンクすることにより、20世紀中ごろの日本の包括的なサプライチェーンを構築することです。
– もう1つは、大量の歴史的な米国新聞の画像キャプションペアから同じ基礎となるフォトワイヤーソースから来たものかどうかを検出することです。
– CLIPPINGSは、広く使用されている文字列マッチング方法を大幅に上回り、単一モード方法をも上回りました。
– さらに、画像OCRペアのみでトレーニングされた純粋な自己教育モデルは、ラベルを必要とせずに人気のある文字列マッチング方法を上回りました。

要約(オリジナル)

Many applications require grouping instances contained in diverse document datasets into classes. Most widely used methods do not employ deep learning and do not exploit the inherently multimodal nature of documents. Notably, record linkage is typically conceptualized as a string-matching problem. This study develops CLIPPINGS, (Contrastively Linking Pooled Pre-trained Embeddings), a multimodal framework for record linkage. CLIPPINGS employs end-to-end training of symmetric vision and language bi-encoders, aligned through contrastive language-image pre-training, to learn a metric space where the pooled image-text representation for a given instance is close to representations in the same class and distant from representations in different classes. At inference time, instances can be linked by retrieving their nearest neighbor from an offline exemplar embedding index or by clustering their representations. The study examines two challenging applications: constructing comprehensive supply chains for mid-20th century Japan through linking firm level financial records – with each firm name represented by its crop in the document image and the corresponding OCR – and detecting which image-caption pairs in a massive corpus of historical U.S. newspapers came from the same underlying photo wire source. CLIPPINGS outperforms widely used string matching methods by a wide margin and also outperforms unimodal methods. Moreover, a purely self-supervised model trained on only image-OCR pairs also outperforms popular string-matching methods without requiring any labels.

arxiv情報

著者 Abhishek Arora,Xinmei Yang,Shao Yu Jheng,Melissa Dell
発行日 2023-04-07 03:39:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV, econ.GN, q-fin.EC パーマリンク