Computing a human-like reaction time metric from stable recurrent vision models

要約

視覚の計算モデルとしてディープニューラルネットワークの採用が急増していることから、これらのモデルを人間と「整合」させる取り組みが活発化している。しかし、選択パターンを特徴付けるだけでなく、視覚的意思決定の時間的側面を捉えることは困難である。ここでは、刺激計算可能でタスク最適化されたモデルから反応時間の計算的説明を構築する汎用的な方法論を概説する。具体的には、リカレント視覚モデルにおける証拠蓄積を要約する主観的論理理論からの洞察を活用した新しいメトリックを導入する。我々は、知覚グループ化、メンタルシミュレーション、シーン分類にまたがる4つの異なる視覚的意思決定タスクにおいて、刺激操作に対する人間の反応時間のパターンと我々のメトリックが一致することを実証する。この研究は、神経科学のための検証可能な仮説を生成するために、他の様々な認知タスクの文脈でモデルと人間の視覚戦略の時間的整合を探索する道を開く。コードとデータへのリンクはプロジェクトページhttps://serre-lab.github.io/rnn_rts_site。

要約(オリジナル)

The meteoric rise in the adoption of deep neural networks as computational models of vision has inspired efforts to ‘align’ these models with humans. One dimension of interest for alignment includes behavioral choices, but moving beyond characterizing choice patterns to capturing temporal aspects of visual decision-making has been challenging. Here, we sketch a general-purpose methodology to construct computational accounts of reaction times from a stimulus-computable, task-optimized model. Specifically, we introduce a novel metric leveraging insights from subjective logic theory summarizing evidence accumulation in recurrent vision models. We demonstrate that our metric aligns with patterns of human reaction times for stimulus manipulations across four disparate visual decision-making tasks spanning perceptual grouping, mental simulation, and scene categorization. This work paves the way for exploring the temporal alignment of model and human visual strategies in the context of various other cognitive tasks toward generating testable hypotheses for neuroscience. Links to the code and data can be found on the project page: https://serre-lab.github.io/rnn_rts_site.

arxiv情報

著者 Lore Goetschalckx,Lakshmi Narasimhan Govindarajan,Alekh Karkada Ashok,Aarit Ahuja,David L. Sheinberg,Thomas Serre
発行日 2023-11-06 16:39:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク