GAMR: A Guided Attention Model for (visual) Reasoning

要約

人間は、複雑な視覚的シーンを柔軟に解析して理解する能力において、最新の AI システムを凌駕し続けています。
ここでは、視覚的推論のための新しいモジュールである (視覚的) 推論のためのガイド付き注意モデル (GAMR) を紹介します。これは、アクティブ ビジョン理論を具体化するものです。
タスクに関連する視覚情報を選択してメモリにルーティングします。
一連の視覚的推論タスクとデータセットに関する実験は、堅牢でサンプル効率の高い方法で視覚的ルーチンを学習する GAMR の能力を示しています。
さらに、GAMR は、まったく新しい推論タスクでゼロショット一般化が可能であることが示されています。
全体として、私たちの仕事は、注意と記憶の間の重要な相互作用の必要性を仮定する認知理論の計算サポートを提供し、タスク関連の視覚情報を動的に維持および操作して、複雑な視覚的推論タスクを解決します。

要約(オリジナル)

Humans continue to outperform modern AI systems in their ability to flexibly parse and understand complex visual scenes. Here, we present a novel module for visual reasoning, the Guided Attention Model for (visual) Reasoning (GAMR), which instantiates an active vision theory — positing that the brain solves complex visual reasoning problems dynamically — via sequences of attention shifts to select and route task-relevant visual information into memory. Experiments on an array of visual reasoning tasks and datasets demonstrate GAMR’s ability to learn visual routines in a robust and sample-efficient manner. In addition, GAMR is shown to be capable of zero-shot generalization on completely novel reasoning tasks. Overall, our work provides computational support for cognitive theories that postulate the need for a critical interplay between attention and memory to dynamically maintain and manipulate task-relevant visual information to solve complex visual reasoning tasks.

arxiv情報

著者 Mohit Vaishnav,Thomas Serre
発行日 2023-03-21 15:35:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, cs.SC パーマリンク