要約
ここ数年、ロボット工学、ジェスチャ認識、自律ナビゲーションなどのさまざまなアプリケーション向けに、マルチモーダル データの融合が広く研究されてきました。
実際、高品質の視覚センサーは高価であり、民生用センサーは低解像度の画像を生成します。
研究者らは、この制限を克服して解像度を向上させるために、RGB カラー画像と熱データなどの非視覚データを組み合わせる方法を開発しました。
複数のモダリティを融合して視覚的に魅力的な高解像度の画像を生成するには、多くの場合、数百万のパラメーターを備えた高密度のモデルと重い計算負荷が必要になります。これは一般に、モデルの複雑なアーキテクチャに起因すると考えられます。
我々は、誘導熱超解像のためのラプラシアン画像ピラミッドを組み込んだマルチモーダルで軽量な生成モデルである LapGSR を提案します。
このアプローチでは、RGB カラー イメージ上でラプラシアン ピラミッドを使用して重要なエッジ情報を抽出します。この情報は、ピクセルと敵対的損失の組み合わせと並行して、モデルの上位層での重い特徴マップの計算をバイパスするために使用されます。
LapGSR は、画像の空間的および構造的な詳細を保持しながら、効率的かつコンパクトです。
これにより、他の SOTA モデルよりもパラメーターが大幅に少ないモデルが得られ、同時に 2 つのクロスドメイン データセットで優れた結果が実証されました。
ULB17-VT および VGTSR データセット。
要約(オリジナル)
In the last few years, the fusion of multi-modal data has been widely studied for various applications such as robotics, gesture recognition, and autonomous navigation. Indeed, high-quality visual sensors are expensive, and consumer-grade sensors produce low-resolution images. Researchers have developed methods to combine RGB color images with non-visual data, such as thermal, to overcome this limitation to improve resolution. Fusing multiple modalities to produce visually appealing, high-resolution images often requires dense models with millions of parameters and a heavy computational load, which is commonly attributed to the intricate architecture of the model. We propose LapGSR, a multimodal, lightweight, generative model incorporating Laplacian image pyramids for guided thermal super-resolution. This approach uses a Laplacian Pyramid on RGB color images to extract vital edge information, which is then used to bypass heavy feature map computation in the higher layers of the model in tandem with a combined pixel and adversarial loss. LapGSR preserves the spatial and structural details of the image while also being efficient and compact. This results in a model with significantly fewer parameters than other SOTA models while demonstrating excellent results on two cross-domain datasets viz. ULB17-VT and VGTSR datasets.
arxiv情報
著者 | Aditya Kasliwal,Ishaan Gakhar,Aryan Kamani,Pratinav Seth,Ujjwal Verma |
発行日 | 2024-11-12 12:23:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google