Emergence of Fixational and Saccadic Movements in a Multi-Level Recurrent Attention Model for Vision

要約

中心のビジョンに触発されたハードオーテストモデルは、解釈性とパラメーター経済を約束します。
ただし、視覚的注意の再発モデル(RAM)やディープリカレント注意モデル(DRAM)などの既存のモデルは、視覚探査ダイナミクスを妥協するヒトビジョンシステムの階層をモデル化できませんでした。
その結果、彼らは、人間の眼球運動の行動とは異なる、過度に固定または過度にサッカーディックのいずれかの注意を引き起こす傾向があります。
このホワイトペーパーでは、人間の視覚処理の神経階層を明示的にモデル化する新しいハード注意フレームワークであるマルチレベルの再発注意モデル(MRAM)を提案します。
2つの再発層での場所の生成とタスクの実行の機能を切り離すことにより、Mramは固定とサッカードの動きの間のバランスの取れた行動を示しました。
私たちの結果は、MRAMがより多くの人間のような注意力学を達成するだけでなく、標準の画像分類ベンチマークでCNN、RAM、DRAMのベースラインを常に上回ることを示しています。

要約(オリジナル)

Inspired by foveal vision, hard attention models promise interpretability and parameter economy. However, existing models like the Recurrent Model of Visual Attention (RAM) and Deep Recurrent Attention Model (DRAM) failed to model the hierarchy of human vision system, that compromise on the visual exploration dynamics. As a result, they tend to produce attention that are either overly fixational or excessively saccadic, diverging from human eye movement behavior. In this paper, we propose a Multi-Level Recurrent Attention Model (MRAM), a novel hard attention framework that explicitly models the neural hierarchy of human visual processing. By decoupling the function of glimpse location generation and task execution in two recurrent layers, MRAM emergent a balanced behavior between fixation and saccadic movement. Our results show that MRAM not only achieves more human-like attention dynamics, but also consistently outperforms CNN, RAM and DRAM baselines on standard image classification benchmarks.

arxiv情報

著者 Pengcheng Pan,Yonekura Shogo,Yasuo Kuniyoshi
発行日 2025-05-19 14:48:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク