要約
デジタル イメージング システムは、伝統的に、規則的なグリッド上に編成されたピクセルのブルート フォース測定と処理に基づいていました。
一方、人間の視覚系は、光受容体の数から視神経までの大規模なデータ削減を実行し、基本的に画像情報を人間の脳による処理に適した低帯域幅の潜在空間表現にエンコードします。
この研究では、人工視覚システムの開発にも同様のアプローチに従うことを提案します。
潜在空間イメージングは、光学とソフトウェアの組み合わせを通じて、画像情報を生成モデルの意味論的に豊富な潜在空間に直接エンコードする新しいパラダイムであり、これによりキャプチャ プロセス中の帯域幅とメモリ要件が大幅に削減されます。
私たちは、単一ピクセル カメラに基づく初期のハードウェア プロトタイプを通じて、この新しい原理を実証します。
生成モデルの潜在空間にエンコードする振幅変調スキームを設計することで、イメージング プロセス中に 1:100 ~ 1:1,000 の圧縮率を達成し、高効率イメージング ハードウェアに対する潜在空間イメージングの可能性を示し、将来の
ハードウェアの複雑さが大幅に軽減された、高速イメージングやタスク固有のカメラのアプリケーションに最適です。
要約(オリジナル)
Digital imaging systems have classically been based on brute-force measuring and processing of pixels organized on regular grids. The human visual system, on the other hand, performs a massive data reduction from the number of photo-receptors to the optic nerve, essentially encoding the image information into a low bandwidth latent space representation suitable for processing by the human brain. In this work, we propose to follow a similar approach for the development of artificial vision systems. Latent Space Imaging is a new paradigm that, through a combination of optics and software, directly encodes the image information into the semantically rich latent space of a generative model, thus substantially reducing bandwidth and memory requirements during the capture process. We demonstrate this new principle through an initial hardware prototype based on the single pixel camera. By designing an amplitude modulation scheme that encodes into the latent space of a generative model, we achieve compression ratios from 1:100 to 1:1,000 during the imaging process, illustrating the potential of latent space imaging for highly efficient imaging hardware, to enable future applications in high speed imaging, or task-specific cameras with substantially reduced hardware complexity.
arxiv情報
著者 | Matheus Souza,Yidan Zheng,Kaizhang Kang,Yogeshwar Nath Mishra,Qiang Fu,Wolfgang Heidrich |
発行日 | 2024-07-09 17:17:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google