PhD Thesis: Exploring the role of (self-)attention in cognitive and computer vision architecture

要約

私たちは、複雑な推論タスクにおける注意と記憶の役割を調査します。
Transformer ベースの自己注意をモデルとして分析し、それを記憶で拡張します。
合成視覚推論テストを研究することで、推論タスクの分類を洗練させます。
ResNet50 に自己注意を組み込むことで、特徴ベースの空間的注意を使用して特徴マップを強化し、困難な視覚的推論タスクの効率的な解決を実現します。
私たちの発見は、SVRT タスクの注意力のニーズを理解するのに役立ちます。
さらに、アクティブビジョン理論に触発された、注意と記憶を組み合わせた認知アーキテクチャであるGAMRを提案します。
GAMR は、サンプル効率、堅牢性、構成性において他のアーキテクチャよりも優れており、新しい推論タスクでゼロショットの一般化を示します。

要約(オリジナル)

We investigate the role of attention and memory in complex reasoning tasks. We analyze Transformer-based self-attention as a model and extend it with memory. By studying a synthetic visual reasoning test, we refine the taxonomy of reasoning tasks. Incorporating self-attention with ResNet50, we enhance feature maps using feature-based and spatial attention, achieving efficient solving of challenging visual reasoning tasks. Our findings contribute to understanding the attentional needs of SVRT tasks. Additionally, we propose GAMR, a cognitive architecture combining attention and memory, inspired by active vision theory. GAMR outperforms other architectures in sample efficiency, robustness, and compositionality, and shows zero-shot generalization on new reasoning tasks.

arxiv情報

著者 Mohit Vaishnav
発行日 2023-06-26 12:40:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SC パーマリンク