Look, Remember and Reason: Visual Reasoning with Grounded Rationales

要約

最近、大規模な言語モデルは、さまざまな推論タスクにおいて人間レベルのパフォーマンスを示しています。
ただし、これらのモデルが複雑な視覚推論を実行できるかどうかは、まだ詳細に研究されていません。
多くの視覚的推論タスクにおける主な課題は、視覚情報を推論プロセスに緊密に統合する必要があることです。
私たちは、さまざまな低レベルの視覚能力に依存する人間の視覚的な問題解決からインスピレーションを得て、この課題に対処することを提案します。
多くの場合、これは「見る、思い出す、理由」の 3 つのステップのプロセスとしてキャストできます。視覚情報は、最終的な答えに到達するまで、低レベルの視覚ルーチンを使用して段階的に抽出されます。
私たちは同じパラダイムに従い、アーキテクチャへの最小限の変更で既存の大規模言語モデルを使用して視覚的推論の問題を解決できるようにします。
この目的を達成するために、物体認識や追跡などの低レベルの視覚機能を代理タスクとして統合できるようにする視覚入力に関する理論的根拠を導入します。
CLEVR、CATER、および ACRE データセットからのさまざまな視覚的推論タスクにおいて、これらのタスク専用に設計された最先端のモデルと比較して優れたパフォーマンスを示します。

要約(オリジナル)

Large language models have recently shown human level performance on a variety of reasoning tasks. However, the ability of these models to perform complex visual reasoning has not been studied in detail yet. A key challenge in many visual reasoning tasks is that the visual information needs to be tightly integrated in the reasoning process. We propose to address this challenge by drawing inspiration from human visual problem solving which depends on a variety of low-level visual capabilities. It can often be cast as the three step-process of “Look, Remember, Reason”: visual information is incrementally extracted using low-level visual routines in a step-by-step fashion until a final answer is reached. We follow the same paradigm to enable existing large language models, with minimal changes to the architecture, to solve visual reasoning problems. To this end, we introduce rationales over the visual input that allow us to integrate low-level visual capabilities, such as object recognition and tracking, as surrogate tasks. We show competitive performance on diverse visual reasoning tasks from the CLEVR, CATER, and ACRE datasets over state-of-the-art models designed specifically for these tasks.

arxiv情報

著者 Apratim Bhattacharyya,Sunny Panchal,Mingu Lee,Reza Pourreza,Pulkit Madan,Roland Memisevic
発行日 2023-06-30 16:31:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク