要約
CLIPは画像とテキストの両方のエンコーダを学習するが、LiTは事前に学習した視覚ネットワークを利用して後者のみを学習する。本論文では、疎な相対表現がネットワークを学習することなくテキストと画像の位置合わせを行うのに十分であることを示す。本手法は、容易に入手可能な単一ドメインエンコーダ(監視付きまたは監視なしで学習)と、(比較的に)控えめな数の画像-テキストペアに依存する。ASIFは、記憶と処理を明確に分離することで、マルチモーダルモデルを構成するものを再定義します。ここでは、モデルは2つのエンコーダのパラメータに加えて、マルチモーダルデータセットのすべてのエントリの埋め込みペアによって定義されています。標準的なゼロショット視覚ベンチマークを用いた実験により、画像-テキストモデルの典型的な伝達能力が実証された。全体として、我々の方法は、マルチモーダルモデルの基礎となるシンプルかつ驚くほど強力なベースラインを示し、そのデータ効率と機械学習における検索の役割に関する重要な問題を提起している。
要約(オリジナル)
Aligning the visual and language spaces requires to train deep neural networks from scratch on giant multimodal datasets; CLIP trains both an image and a text encoder, while LiT manages to train just the latter by taking advantage of a pretrained vision network. In this paper, we show that sparse relative representations are sufficient to align text and images without training any network. Our method relies on readily available single-domain encoders (trained with or without supervision) and a modest (in comparison) number of image-text pairs. ASIF redefines what constitutes a multimodal model by explicitly disentangling memory from processing: here the model is defined by the embedded pairs of all the entries in the multimodal dataset, in addition to the parameters of the two encoders. Experiments on standard zero-shot visual benchmarks demonstrate the typical transfer ability of image-text models. Overall, our method represents a simple yet surprisingly strong baseline for foundation multimodal models, raising important questions on their data efficiency and on the role of retrieval in machine learning.
arxiv情報
著者 | Antonio Norelli,Marco Fumero,Valentino Maiorca,Luca Moschella,Emanuele Rodolà,Francesco Locatello |
発行日 | 2022-10-04 16:56:22+00:00 |
arxivサイト | arxiv_id(pdf) |