要約
ホログラフィックディスプレイは、すべての深さキューを提供する能力により、仮想現実と拡張現実に大きな可能性を秘めています。
ディープラーニングベースの方法は、コンピューター生成ホログラム(CGH)で重要な役割を果たします。
回折プロセス中、各ピクセルは再構築された画像に影響を及ぼします。
ただし、以前の作品は、主にそれらの効果的な受容フィールド(ERF)の不十分さのために、このプロセスを正確にモデル化するのに十分な情報をキャプチャする際の課題に直面しています。
ここでは、ネットワークに統合するための複雑な変形可能な畳み込みを設計し、畳み込みカーネルの形状を動的に調整して、より良い特徴抽出のためにERFの柔軟性を高めることができます。
このアプローチにより、既存のオープンソースモデルを上回る、シミュレートされた実験と光学実験の両方の再構成で最先端のパフォーマンスを達成しながら、単一のモデルを利用できます。
具体的には、私たちの方法は、解像度が1920 $ \ Times $ 1072である場合、それぞれCCNN-CGH、Holonet、およびHolo-Encoderのそれよりも2.04 dB、5.31 dB、および9.71 dBのピーク信号対雑音比を持っています。
モデルのパラメーターの数は、CCNN-CGHのパラメーターの約8分の1にすぎません。
要約(オリジナル)
Holographic displays have significant potential in virtual reality and augmented reality owing to their ability to provide all the depth cues. Deep learning-based methods play an important role in computer-generated holograms (CGH). During the diffraction process, each pixel exerts an influence on the reconstructed image. However, previous works face challenges in capturing sufficient information to accurately model this process, primarily due to the inadequacy of their effective receptive field (ERF). Here, we designed complex-valued deformable convolution for integration into network, enabling dynamic adjustment of the convolution kernel’s shape to increase flexibility of ERF for better feature extraction. This approach allows us to utilize a single model while achieving state-of-the-art performance in both simulated and optical experiment reconstructions, surpassing existing open-source models. Specifically, our method has a peak signal-to-noise ratio that is 2.04 dB, 5.31 dB, and 9.71 dB higher than that of CCNN-CGH, HoloNet, and Holo-encoder, respectively, when the resolution is 1920$\times$1072. The number of parameters of our model is only about one-eighth of that of CCNN-CGH.
arxiv情報
著者 | Xie Shuyang,Zhou Jie,Xu Bo,Wang Jun,Xu Renjing |
発行日 | 2025-06-17 14:02:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google