On the Difference of BERT-style and CLIP-style Text Encoders

要約

マスク言語モデリング (MLM) は、自然言語処理で最も人気のある事前トレーニング レシピの 1 つであり、代表的なモデルの 1 つである BERT などです。
最近では、対照的言語イメージ事前学習 (CLIP) も注目を集めており、特にその視覚モデルは広範囲の視覚タスクで優れたパフォーマンスを達成します。
ただし、CLIP によって学習されたテキスト エンコーダーの研究に特化した研究はほとんどありません。
この論文では、(i) 一般的なテキスト理解、(ii) 視覚中心のテキスト理解、および (iii) テキストから画像への生成という 3 つの実験から、BERT スタイルと CLIP スタイルのテキスト エンコーダの違いを分析します。
実験分析によると、CLIP スタイルのテキスト エンコーダは、一般的なテキスト理解タスクでは BERT スタイルのテキスト エンコーダよりもパフォーマンスが劣りますが、クロスモーダルな関連付けのための独自の能力、つまり人間の感覚により近い共感覚を備えていることが示されています。

要約(オリジナル)

Masked language modeling (MLM) has been one of the most popular pretraining recipes in natural language processing, e.g., BERT, one of the representative models. Recently, contrastive language-image pretraining (CLIP) has also attracted attention, especially its vision models that achieve excellent performance on a broad range of vision tasks. However, few studies are dedicated to studying the text encoders learned by CLIP. In this paper, we analyze the difference between BERT-style and CLIP-style text encoders from three experiments: (i) general text understanding, (ii) vision-centric text understanding, and (iii) text-to-image generation. Experimental analyses show that although CLIP-style text encoders underperform BERT-style ones for general text understanding tasks, they are equipped with a unique ability, i.e., synesthesia, for the cross-modal association, which is more similar to the senses of humans.

arxiv情報

著者 Zhihong Chen,Guiming Hardy Chen,Shizhe Diao,Xiang Wan,Benyou Wang
発行日 2023-06-06 13:41:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク