Can Vision Language Models Learn from Visual Demonstrations of Ambiguous Spatial Reasoning?

要約

大規模ビジョン言語モデル (VLM) は、多くのコンピューター ビジョン タスクにとって最先端のものとなり、新しいタスクに対する一般的な適応戦略としてコンテキスト内学習 (ICL) が採用されています。
しかし、VLM は純粋に視覚的なデモンストレーションから新しい概念を学習できるのでしょうか、それとも ICL サンプルの出力形式に適応することに限定されるのでしょうか?
私たちは、最先端の VLM がコンテキスト内で新しい視覚空間タスクを学習できるようにする、Spatial Visual Ambiguity Tasks (SVAT) と呼ぶ新しいベンチマークを提案します。
VLM はこのゼロショットを実行できず、場合によっては微調整後も失敗し続けることがわかりました。
しかし、カリキュラム学習によるトレーニングに、より単純なデータを追加することは、ICL のパフォーマンスの向上につながります。

要約(オリジナル)

Large vision-language models (VLMs) have become state-of-the-art for many computer vision tasks, with in-context learning (ICL) as a popular adaptation strategy for new ones. But can VLMs learn novel concepts purely from visual demonstrations, or are they limited to adapting to the output format of ICL examples? We propose a new benchmark we call Spatial Visual Ambiguity Tasks (SVAT) that challenges state-of-the-art VLMs to learn new visuospatial tasks in-context. We find that VLMs fail to do this zero-shot, and sometimes continue to fail after finetuning. However, adding simpler data to the training by curriculum learning leads to improved ICL performance.

arxiv情報

著者 Bowen Zhao,Leo Parker Dirac,Paulina Varshavskaya
発行日 2024-09-25 16:45:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク