A Deep Learning Ensemble Framework for Off-Nadir Geocentric Pose Prediction

要約

世界中で毎年約6,800件の自然災害が発生しており、気候変動の影響により、この驚くべき数は増え続けています。
自然災害への対応を改善するための効果的な方法には、変化の検出、地図の位置合わせ、および視覚支援ナビゲーションを実行して、時間効率の良い救命支援の提供を可能にすることが含まれます。
現在のソフトウェアは、地上90度で撮影された天底画像でのみ最適に機能します。
斜めの画像に一般化できないため、重力に対する空間的な向きである画像の地心ポーズを計算する必要性が高まります。
このディープラーニングの調査では、世界中の都市の5,923の天底と斜めの赤、緑、青(RGB)の衛星画像を使用して、地心のポーズを予測する3つの畳み込みモデルを示します。
最初のモデルは、256 x 256×3の画像を32×32 x 16の潜在空間表現に凝縮するオートエンコーダーであり、データから有用な特徴を学習する能力を示しています。
2番目のモデルは、各画像の対応するピクセルレベルの標高マスクを予測するために使用されるスキップ接続を備えたU-Net完全畳み込みネットワークです。
このモデルは、テストデータで0.335メートルの中央絶対偏差と0.865のR2を達成します。
その後、標高マスクはRGB画像と連結され、3番目のモデルに供給される4チャンネル入力を形成します。これにより、各画像の回転角とスケール、つまりその地心ポーズのコンポーネントが予測されます。
このディープ畳み込みニューラルネットワークは、テストデータで0.943のR2を達成し、研究者によって設計された以前のモデルを大幅に上回っています。
この調査で構築された高精度ソフトウェアは、災害救援を加速し、人命を救うためのマッピングおよびナビゲーション手順に貢献します。

要約(オリジナル)

Roughly 6,800 natural disasters occur worldwide annually, and this alarming number continues to grow due to the effects of climate change. Effective methods to improve natural disaster response include performing change detection, map alignment, and vision-aided navigation to allow for the time-efficient delivery of life-saving aid. Current software functions optimally only on nadir images taken ninety degrees above ground level. The inability to generalize to oblique images increases the need to compute an image’s geocentric pose, which is its spatial orientation with respect to gravity. This Deep Learning investigation presents three convolutional models to predict geocentric pose using 5,923 nadir and oblique red, green, and blue (RGB) satellite images of cities worldwide. The first model is an autoencoder that condenses the 256 x 256 x 3 images to 32 x 32 x 16 latent space representations, demonstrating the ability to learn useful features from the data. The second model is a U-Net Fully Convolutional Network with skip connections used to predict each image’s corresponding pixel-level elevation mask. This model achieves a median absolute deviation of 0.335 meters and an R2 of 0.865 on test data. Afterward, the elevation masks are concatenated with the RGB images to form four-channel inputs fed into the third model, which predicts each image’s rotation angle and scale, the components of its geocentric pose. This Deep Convolutional Neural Network achieves an R2 of 0.943 on test data, significantly outperforming previous models designed by researchers. The high-accuracy software built in this study contributes to mapping and navigation procedures to accelerate disaster relief and save human lives.

arxiv情報

著者 Christopher Sun,Jai Sharma,Milind Maiti
発行日 2022-06-23 17:50:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク