要約
下流のタスクで事前にトレーニングされた言語と視覚のモデルによって達成される素晴らしいパフォーマンスにもかかわらず、これが画像とテキストのインタラクションの適切な理解を反映しているかどうかは未解決の疑問のままです。
この研究では、未就学児でも通常習得できる、能動態と受動態、調整節、関係節などの基本的な言語構造を彼らがどの程度処理できるかを調査します。
これらの基本的な言語能力に関するマルチモーダル モデルを評価するために、自動的に構築される新しいベンチマークである BLA を紹介します。
以前の調査結果と一致して、CLIP、ViLBERT、BLIP2 などのさまざまなタイプの Transformer ベースのシステムは、一般的にゼロショット設定では BLA に苦戦することがわかりました。
特に、私たちの実験では、テストされたモデルのほとんどは、微調整したり、建設固有のサンプルを使用してプロンプトを作成したりしても、わずかな効果しか得られないことがわかりました。
それでも、生成型 BLIP2 は、特にコンテキスト内学習環境において、有望な傾向を示しています。
これにより、BLA を評価ベンチマークとしてだけでなく、モデルの基本的な言語能力を向上させるためにも使用できるようになります。
要約(オリジナル)
Despite the impressive performance achieved by pre-trained language-and-vision models in downstream tasks, it remains an open question whether this reflects a proper understanding of image-text interaction. In this work, we explore to what extent they handle basic linguistic constructions — active-passive voice, coordination, and relative clauses — that even preschool children can typically master. We present BLA, a novel, automatically constructed benchmark to evaluate multimodal models on these Basic Language Abilities. We show that different types of Transformer-based systems, such as CLIP, ViLBERT, and BLIP2, generally struggle with BLA in a zero-shot setting, in line with previous findings. Our experiments, in particular, show that most of the tested models only marginally benefit when fine-tuned or prompted with construction-specific samples. Yet, the generative BLIP2 shows promising trends, especially in an in-context learning setting. This opens the door to using BLA not only as an evaluation benchmark but also to improve models’ basic language abilities.
arxiv情報
著者 | Xinyi Chen,Raquel Fernández,Sandro Pezzelle |
発行日 | 2023-10-23 16:05:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google