Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World

要約

マシンビジョンのための実世界の少数ショット推論を評価するための新しいベンチマークである Bongard-OpenWorld を紹介します。
これは古典的な Bongard 問題 (BP) に由来します。2 つの画像セット (ポジティブとネガティブ) が与えられた場合、モデルは、ポジティブ セットの画像によってもっぱら表現される視覚概念を誘導することによって、クエリ画像が属するセットを識別する必要があります。

私たちのベンチマークは、元の BP の少数ショット概念誘導を継承しながら、次の 2 つの新しい課題層を追加しています。1) オープンワールドの自由形式概念。Bongard-OpenWorld の視覚的概念は、オープンな語彙からの用語の独自の構成であるため、
オブジェクトのカテゴリーから抽象的な視覚的属性や常識的な事実知識に至るまで。
2) 多くの対応物で使用されている合成図とは対照的に、現実世界の画像。
私たちの探索において、Bongard-OpenWorld はすでに現在の少数ショット推論アルゴリズムに重大な課題を課しています。
さらに、最近導入された大規模言語モデル (LLM) とビジョン言語モデル (VLM) がどの程度まで私たちのタスクを解決できるかを、VLM を直接調べたり、対話型推論スキームで VLM と LLM を組み合わせたりすることで、さらに調査します。
私たちは、ボンガード問題に対する人間の問題解決プロセスをエミュレートするために、LLM と VLM を論理的推論と調和させる神経記号的推論アプローチも考案しました。
ただし、これらのアプローチのいずれも人間とマシンのギャップを埋めることはできません。最も優れた学習者が 64% の精度を達成する一方で、人間の参加者は簡単に 91% に達するためです。
Bongard-OpenWorld が現在の視覚知能の限界をより深く理解し、より強力な少数ショット視覚推論機能を備えた視覚エージェントに関する将来の研究を促進するのに役立つことを願っています。

要約(オリジナル)

We introduce Bongard-OpenWorld, a new benchmark for evaluating real-world few-shot reasoning for machine vision. It originates from the classical Bongard Problems (BPs): Given two sets of images (positive and negative), the model needs to identify the set that query images belong to by inducing the visual concepts, which is exclusively depicted by images from the positive set. Our benchmark inherits the few-shot concept induction of the original BPs while adding the two novel layers of challenge: 1) open-world free-form concepts, as the visual concepts in Bongard-OpenWorld are unique compositions of terms from an open vocabulary, ranging from object categories to abstract visual attributes and commonsense factual knowledge; 2) real-world images, as opposed to the synthetic diagrams used by many counterparts. In our exploration, Bongard-OpenWorld already imposes a significant challenge to current few-shot reasoning algorithms. We further investigate to which extent the recently introduced Large Language Models (LLMs) and Vision-Language Models (VLMs) can solve our task, by directly probing VLMs, and combining VLMs and LLMs in an interactive reasoning scheme. We even conceived a neuro-symbolic reasoning approach that reconciles LLMs & VLMs with logical reasoning to emulate the human problem-solving process for Bongard Problems. However, none of these approaches manage to close the human-machine gap, as the best learner achieves 64% accuracy while human participants easily reach 91%. We hope Bongard-OpenWorld can help us better understand the limitations of current visual intelligence and facilitate future research on visual agents with stronger few-shot visual reasoning capabilities.

arxiv情報

著者 Rujie Wu,Xiaojian Ma,Zhenliang Zhang,Wei Wang,Qing Li,Song-Chun Zhu,Yizhou Wang
発行日 2024-03-18 09:05:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク