要約
テキストと画像を組み合わせた大規模なモデルは、近年驚異的な進歩を遂げています。
ただし、複数の図形から赤い立方体を正しく選択するなど、構成に関する知識が必要なタスクでは失敗する可能性があります。
CLIP (Radford et al., 2021) が構成に関する知識を必要とする画像にキャプションを付ける能力を調べます。
CLIP が使用している可能性のある構造の種類を調査するために 5 つの合成言語モデルを実装し、これらのモデルをトレーニングするための新しいトレーニング アルゴリズムである画像用合成スキップグラム (CoSI) を開発します。
属性とオブジェクトの特定の組み合わせ (「赤い立方体」など) の識別を必要とする属性ベースのタスクと、2 つの形状間の空間的関係 (「球の背後にある立方体」など) の関係設定でのパフォーマンスを調べます。
) を識別する必要があります。
いくつかの条件では、CLIP が属性オブジェクトのラベリングを学習し、目に見えない属性オブジェクトの組み合わせに一般化できることがわかりました。
ただし、CLIP が機能を確実に結合できないという証拠も見られます。
さらに、CLIPはオブジェクト間の関係を確実に学習できませんが、一部の構成モデルはこれらを完全に学習できます。
私たちが開発した 5 つのモデルのうち、目に見えない関係に一般化できたものはありませんでした。
要約(オリジナル)
Large-scale models combining text and images have made incredible progress in recent years. However, they can still fail at tasks requiring compositional knowledge, such as correctly picking out a red cube from a picture of multiple shapes. We examine the ability of CLIP (Radford et al., 2021), to caption images requiring compositional knowledge. We implement five compositional language models to probe the kinds of structure that CLIP may be using, and develop a novel training algorithm, Compositional Skipgram for Images (CoSI), to train these models. We look at performance in attribute-based tasks, requiring the identification of a particular combination of attribute and object (such as ‘red cube’), and in relational settings, where the spatial relation between two shapes (such as ‘cube behind sphere’) must be identified. We find that in some conditions, CLIP is able to learn attribute-object labellings, and to generalize to unseen attribute-object combinations. However, we also see evidence that CLIP is not able to bind features together reliably. Moreover, CLIP is not able to reliably learn relations between objects, whereas some compositional models are able to learn these perfectly. Of the five models we developed, none were able to generalize to unseen relations.
arxiv情報
著者 | Martha Lewis,Qinan Yu,Jack Merullo,Ellie Pavlick |
発行日 | 2022-12-20 18:46:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google