Predicting Human Attention using Computational Attention

要約

視覚的注意のほとんどのモデルは、トップダウンまたはボトムアップの制御を予測することを目的としています。これは、さまざまな視覚的検索と自由視聴タスクを使用して研究されています。
両方の形式の注意制御を予測する単一のモデルである Human Attention Transformer (HAT) を提案します。
HAT は、ターゲットが存在する場合とターゲットが存在しない場合の検索中に行われる凝視のスキャンパスを予測する新しい最先端技術 (SOTA) であり、タスクレス フリー ビューイングの凝視スキャンパスの予測で SOTA と一致するか、それを上回ります。
HAT は、新しい変圧器ベースのアーキテクチャと単純化された中心窩網膜を使用して、人間の動的視覚作業記憶に似た時空間認識を集合的に作成することにより、この新しい SOTA を実現します。
凝視セルの粗いグリッドに依存し、凝視の離散化による情報損失を経験する以前の方法とは異なり、HAT は密な予測アーキテクチャを備えており、凝視ごとに密なヒートマップを出力するため、凝視の離散化が回避されます。
HAT は、有効性と一般性の両方を強調する計算上の注意の新しい基準を設定します。
HAT の実証された範囲と適用可能性は、さまざまな注意を必要とするシナリオでの人間の行動をより適切に予測できる新しい注意モデルの開発を刺激する可能性があります。

要約(オリジナル)

Most models of visual attention are aimed at predicting either top-down or bottom-up control, as studied using different visual search and free-viewing tasks. We propose Human Attention Transformer (HAT), a single model predicting both forms of attention control. HAT is the new state-of-the-art (SOTA) in predicting the scanpath of fixations made during target-present and target-absent search, and matches or exceeds SOTA in the prediction of taskless free-viewing fixation scanpaths. HAT achieves this new SOTA by using a novel transformer-based architecture and a simplified foveated retina that collectively create a spatio-temporal awareness akin to the dynamic visual working memory of humans. Unlike previous methods that rely on a coarse grid of fixation cells and experience information loss due to fixation discretization, HAT features a dense-prediction architecture and outputs a dense heatmap for each fixation, thus avoiding discretizing fixations. HAT sets a new standard in computational attention, which emphasizes both effectiveness and generality. HAT’s demonstrated scope and applicability will likely inspire the development of new attention models that can better predict human behavior in various attention-demanding scenarios.

arxiv情報

著者 Zhibo Yang,Sounak Mondal,Seoyoung Ahn,Gregory Zelinsky,Minh Hoai,Dimitris Samaras
発行日 2023-03-16 15:13:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク