Visual Fixation-Based Retinal Prosthetic Simulation

要約

この研究では、サッケード機構にヒントを得て、視覚固視によって駆動される人工網膜シミュレーション フレームワークを提案し、分類タスクにおけるエンドツーエンドの最適化を通じてパフォーマンスの向上を評価します。
顕著なパッチは、視覚変換器の自己注意マップを使用して入力画像から予測され、固視を模倣します。
これらのパッチは、トレーニング可能な U-Net によってエンコードされ、pulse2percept フレームワークを使用してシミュレートされ、視覚知覚を予測します。
学習可能なエンコーダを組み込むことで、網膜インプラントに送信される視覚情報を最適化し、電極アレイの限られた解像度と、入力刺激と結果として生じるホスフェンの間の歪みの両方に対処することを目指しています。
予測された知覚は、分類精度を高めるためのオプションの学習可能な線形レイヤーを使用して、自己教師あり DINOv2 基礎モデルを使用して評価されます。
ImageNet 検証セットのサブセットでは、固視ベースのフレームワークは、実際の被験者の生理学的データに基づく計算パラメーターを使用して 87.72% の分類精度を達成し、ダウンサンプリングベースの精度 40.59% を大幅に上回り、分類精度の健全な上限に近づいています。
92.76%。
私たちのアプローチは、人工網膜で利用できる限られた解像度で、より意味的に理解可能な知覚を生み出す有望な可能性を示しています。

要約(オリジナル)

This study proposes a retinal prosthetic simulation framework driven by visual fixations, inspired by the saccade mechanism, and assesses performance improvements through end-to-end optimization in a classification task. Salient patches are predicted from input images using the self-attention map of a vision transformer to mimic visual fixations. These patches are then encoded by a trainable U-Net and simulated using the pulse2percept framework to predict visual percepts. By incorporating a learnable encoder, we aim to optimize the visual information transmitted to the retinal implant, addressing both the limited resolution of the electrode array and the distortion between the input stimuli and resulting phosphenes. The predicted percepts are evaluated using the self-supervised DINOv2 foundation model, with an optional learnable linear layer for classification accuracy. On a subset of the ImageNet validation set, the fixation-based framework achieves a classification accuracy of 87.72%, using computational parameters based on a real subject’s physiological data, significantly outperforming the downsampling-based accuracy of 40.59% and approaching the healthy upper bound of 92.76%. Our approach shows promising potential for producing more semantically understandable percepts with the limited resolution available in retinal prosthetics.

arxiv情報

著者 Yuli Wu,Do Dinh Tan Nguyen,Henning Konermann,Rüveyda Yilmaz,Peter Walter,Johannes Stegmaier
発行日 2024-10-15 15:24:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.NE パーマリンク