Fusing Foveal Fixations Using Linear Retinal Transformations and Bayesian Experimental Design

要約

人間(および多くの脊椎動物)は、シーンの複数の固視を融合して全体の表現を得るという問題に直面している。本論文では、既知の形状を利用し、シーンの高解像度潜像の線形ダウンサンプリングとして、固視の網膜変換を明示的に表現する。この線形変換により、情景の因子分析(FA)やFAモデルの混合における潜在変数の厳密な推論が可能になる。さらに、これにより、「次にどこを見るか」の選択を、期待情報利得基準を用いたベイズ実験計画問題として定式化し、解くことができる。Freyの顔とMNISTデータセットを用いた実験により、我々のモデルの有効性が実証された。

要約(オリジナル)

Humans (and many vertebrates) face the problem of fusing together multiple fixations of a scene in order to obtain a representation of the whole, where each fixation uses a high-resolution fovea and decreasing resolution in the periphery. In this paper we explicitly represent the retinal transformation of a fixation as a linear downsampling of a high-resolution latent image of the scene, exploiting the known geometry. This linear transformation allows us to carry out exact inference for the latent variables in factor analysis (FA) and mixtures of FA models of the scene. Further, this allows us to formulate and solve the choice of ‘where to look next’ as a Bayesian experimental design problem using the Expected Information Gain criterion. Experiments on the Frey faces and MNIST datasets demonstrate the effectiveness of our models.

arxiv情報

著者 Christopher K. I. Williams
発行日 2025-05-02 13:17:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク