How does the primate brain combine generative and discriminative computations in vision?

要約

ビジョンは推論問題として広く理解されています。
しかし、推論プロセスの 2 つの対照的な概念は、それぞれ生物学的視覚の研究とマシン ビジョンの工学に影響を与えてきました。
1 つ目はボトムアップの信号の流れを強調し、視覚を主にフィードフォワードの識別推論プロセスとして説明し、視覚情報をフィルタリングおよび変換して無関係な変動を除去し、行動に関連する情報を認知と行動制御の下流機能に適した形式で表現します。
この概念では、視覚は感覚データによって駆動され、処理はデータから対象の潜在変数に進むため、知覚は直接的です。
この概念における「推論」の概念は、ニューラル ネットワークに関する工学文献の概念であり、画像を処理するフィードフォワード畳み込みニューラル ネットワークが推論を実行するとされています。
これに代わる概念は、ヘルムホルツの意味での推論プロセスとしての視覚の概念であり、感覚証拠は、それを引き起こす因果プロセスの生成モデルの文脈で評価されます。
この概念では、視覚は、代替仮説の可能性を評価するために感覚データのトップダウン予測を伴うとよく考えられているプロセスにおける証拠の調査を通じて生成モデルを逆転させます。
著者には、それぞれの概念にほぼ同数の科学者が含まれており、それらの間の誤った二分法である可能性のあるものを克服し、理論と実験の領域でもう一方の視点に取り組む意欲を持っています。
霊長類の脳は、両方の概念の利点を組み合わせた可能性のある未知のアルゴリズムを採用しています。
私たちは用語を説明して明確にし、重要な実証的証拠を検討し、二分法を超えて霊長類の視覚の神秘的なハイブリッドアルゴリズムを明らかにするための準備を整える実証的研究プログラムを提案します。

要約(オリジナル)

Vision is widely understood as an inference problem. However, two contrasting conceptions of the inference process have each been influential in research on biological vision as well as the engineering of machine vision. The first emphasizes bottom-up signal flow, describing vision as a largely feedforward, discriminative inference process that filters and transforms the visual information to remove irrelevant variation and represent behaviorally relevant information in a format suitable for downstream functions of cognition and behavioral control. In this conception, vision is driven by the sensory data, and perception is direct because the processing proceeds from the data to the latent variables of interest. The notion of ‘inference’ in this conception is that of the engineering literature on neural networks, where feedforward convolutional neural networks processing images are said to perform inference. The alternative conception is that of vision as an inference process in Helmholtz’s sense, where the sensory evidence is evaluated in the context of a generative model of the causal processes giving rise to it. In this conception, vision inverts a generative model through an interrogation of the evidence in a process often thought to involve top-down predictions of sensory data to evaluate the likelihood of alternative hypotheses. The authors include scientists rooted in roughly equal numbers in each of the conceptions and motivated to overcome what might be a false dichotomy between them and engage the other perspective in the realm of theory and experiment. The primate brain employs an unknown algorithm that may combine the advantages of both conceptions. We explain and clarify the terminology, review the key empirical evidence, and propose an empirical research program that transcends the dichotomy and sets the stage for revealing the mysterious hybrid algorithm of primate vision.

arxiv情報

著者 Benjamin Peters,James J. DiCarlo,Todd Gureckis,Ralf Haefner,Leyla Isik,Joshua Tenenbaum,Talia Konkle,Thomas Naselaris,Kimberly Stachenfeld,Zenna Tavares,Doris Tsao,Ilker Yildirim,Nikolaus Kriegeskorte
発行日 2024-01-11 16:07:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, q-bio.NC パーマリンク