要約
私たちが周囲の物体をどのように知覚するかは、私たちが何に積極的に注意を向けるかに依存するが、私たちの眼球運動は知覚される物体に依存する。それでもなお、物体のセグメンテーションと視線行動は、通常、2つの独立したプロセスとして扱われている。我々は、ロボット工学の情報処理パターンを利用して、ダイナミックな実世界のシーンに対するこれらのプロセスをシミュレートする力学的モデルを提示する。我々の画像計算可能なモデルは、オブジェクトに基づくサッカード決定のために現在のシーンセグメンテーションを使用し、一方、そのシーンセグメンテーションを再帰的に洗練するために注視オブジェクトを使用する。この洗練をモデル化するために、我々はベイズフィルタを使用し、また、能動的なシーン探索を導くために使用するセグメンテーションの不確実性推定を提供する。我々は、このモデルが、パラメータフィッティングに使用されるfoveation durationやsaccade amplitude distributionsを含むスキャンパス統計量や、フィッティングに使用されないより高次の統計量によって測定される、観察者の自由視行動に酷似していることを実証する。これらの統計量には、物体の検出、検査、戻りがどのようにバランスされているか、また、戻りの時間的抑制を明示的に実装することなく、戻りのサッケードを遅延させることなどが含まれる。広範なシミュレーションとアブレーション研究により、不確実性がバランスのとれた探索を促進すること、そして意味的な物体手がかりが物体に基づく注意で使用される知覚単位を形成するのに重要であることが示された。さらに、このモデルのモジュール設計により、サッカードの勢いやサッカード前の注意を取り入れるなどの拡張が可能になり、人間のスキャンパスとその出力をさらに一致させることができることを示す。
要約(オリジナル)
How we perceive objects around us depends on what we actively attend to, yet our eye movements depend on the perceived objects. Still, object segmentation and gaze behavior are typically treated as two independent processes. Drawing on an information processing pattern from robotics, we present a mechanistic model that simulates these processes for dynamic real-world scenes. Our image-computable model uses the current scene segmentation for object-based saccadic decision-making while using the foveated object to refine its scene segmentation recursively. To model this refinement, we use a Bayesian filter, which also provides an uncertainty estimate for the segmentation that we use to guide active scene exploration. We demonstrate that this model closely resembles observers’ free viewing behavior, measured by scanpath statistics, including foveation duration and saccade amplitude distributions used for parameter fitting and higher-level statistics not used for fitting. These include how object detections, inspections, and returns are balanced and a delay of returning saccades without an explicit implementation of such temporal inhibition of return. Extensive simulations and ablation studies show that uncertainty promotes balanced exploration and that semantic object cues are crucial to form the perceptual units used in object-based attention. Moreover, we show how our model’s modular design allows for extensions, such as incorporating saccadic momentum or pre-saccadic attention, to further align its output with human scanpaths.
arxiv情報
著者 | Vito Mengers,Nicolas Roth,Oliver Brock,Klaus Obermayer,Martin Rolfs |
発行日 | 2024-08-02 15:20:34+00:00 |
arxivサイト | arxiv_id(pdf) |