What Makes a Maze Look Like a Maze?

要約

人間の視覚的理解のユニークな側面は、抽象的な概念を柔軟に解釈する能力です。つまり、それが象徴するものを説明する高度なルールを取得し、見慣れたコンテキストとなじみのないコンテキストに基づいてそれらを基礎付け、それらについて予測や推論を行うことができます。
既製の視覚言語モデルは、画像の文字通りの解釈(木の枝などのオブジェクトカテゴリの認識)には優れていますが、そのような視覚的な抽象化(木の枝の配置がどのように形成されるかなど)を理解するのに依然として苦労しています。
迷路の壁)。
この課題に対処するために、グラウンディングと推論のために視覚的な抽象化の明示的な構造化表現を活用するフレームワークであるディープ スキーマ グラウンディング (DSG) を導入します。
DSG の中核となるのはスキーマ、つまり抽象的な概念をより原始的なレベルのシンボルに分解する依存関係グラフの記述です。
DSG は、大規模な言語モデルを使用してスキーマを抽出し、ビジョン言語モデルを使用して、スキーマの具体的なコンポーネントから抽象的なコンポーネントを画像上に階層的に基盤付けします。
根拠のあるスキーマは、視覚的な抽象化の理解を強化するために使用されます。
私たちは、新しい視覚抽象化データセットの推論において、DSG とさまざまな手法を体系的に評価します。このデータセットは、抽象概念の多様な現実世界の画像と、人間によってラベル付けされた対応する質問と回答のペアで構成されます。
我々は、DSG が視覚言語モデルの抽象的な視覚的推論のパフォーマンスを大幅に向上させ、視覚的な抽象化に対する人間との整合性のある理解への一歩となることを示します。

要約(オリジナル)

A unique aspect of human visual understanding is the ability to flexibly interpret abstract concepts: acquiring lifted rules explaining what they symbolize, grounding them across familiar and unfamiliar contexts, and making predictions or reasoning about them. While off-the-shelf vision-language models excel at making literal interpretations of images (e.g., recognizing object categories such as tree branches), they still struggle to make sense of such visual abstractions (e.g., how an arrangement of tree branches may form the walls of a maze). To address this challenge, we introduce Deep Schema Grounding (DSG), a framework that leverages explicit structured representations of visual abstractions for grounding and reasoning. At the core of DSG are schemas–dependency graph descriptions of abstract concepts that decompose them into more primitive-level symbols. DSG uses large language models to extract schemas, then hierarchically grounds concrete to abstract components of the schema onto images with vision-language models. The grounded schema is used to augment visual abstraction understanding. We systematically evaluate DSG and different methods in reasoning on our new Visual Abstractions Dataset, which consists of diverse, real-world images of abstract concepts and corresponding question-answer pairs labeled by humans. We show that DSG significantly improves the abstract visual reasoning performance of vision-language models, and is a step toward human-aligned understanding of visual abstractions.

arxiv情報

著者 Joy Hsu,Jiayuan Mao,Joshua B. Tenenbaum,Noah D. Goodman,Jiajun Wu
発行日 2024-09-12 16:41:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク