要約
3次元地理情報は生活環境を理解する上で非常に重要です。
ただし、特に大規模なリモート センシング データからの 3D 認識は制限されています。
この問題に取り組むために、我々は光学画像から単眼の高さを推定する方法を提案します。光学画像は現在リモートセンシングデータの最も豊富な情報源の 1 つです。
不適切な問題として、単眼の高さ推定には、パフォーマンスを向上させるために表現を強化するための適切に設計されたネットワークが必要です。
さらに、高さの値の分布は、背景などの高さの低いピクセルを先頭にしてロングテールになるため、訓練されたネットワークは通常、偏りがあり、建物の高さを過小評価する傾向があります。
問題を解決するために、問題を回帰タスクとして形式化するのではなく、ヘッドテールカット (HTC) と分布ベースの制約 (DC) を主な貢献とする分類回帰パラダイムに従って HTC-DC Net を提案します。
。
HTC-DC Net は、特徴抽出器としてのバックボーン ネットワーク、HTC-AdaBins モジュール、ハイブリッド回帰プロセスで構成されています。
HTC-AdaBins モジュールは、各入力画像に適応するビンを決定する分類フェーズとして機能します。
これには、全体的な情報を含むローカル コンテキストを組み込むためのビジョン トランスフォーマー エンコーダーが装備されており、前景と背景のピクセルのパフォーマンスのバランスを取るための単眼の高さ推定におけるロングテール問題に対処する HTC が含まれています。
ハイブリッド回帰プロセスは、DC を介してトレーニングされた分類フェーズからのビンの平滑化を介して回帰を実行します。
提案されたネットワークは、異なる解像度の 3 つのデータセット、つまり ISPRS Vaihingen (0.09 m)、DFC19 (1.3 m)、および GBH (3 m) でテストされます。
実験結果は、提案されたネットワークが既存の方法よりも大幅に優れていることを示しています。
広範なアブレーション研究により、各設計コンポーネントの有効性が実証されています。
要約(オリジナル)
3D geo-information is of great significance for understanding the living environment; however, 3D perception from remote sensing data, especially on a large scale, is restricted. To tackle this problem, we propose a method for monocular height estimation from optical imagery, which is currently one of the richest sources of remote sensing data. As an ill-posed problem, monocular height estimation requires well-designed networks for enhanced representations to improve performance. Moreover, the distribution of height values is long-tailed with the low-height pixels, e.g., the background, as the head, and thus trained networks are usually biased and tend to underestimate building heights. To solve the problems, instead of formalizing the problem as a regression task, we propose HTC-DC Net following the classification-regression paradigm, with the head-tail cut (HTC) and the distribution-based constraints (DCs) as the main contributions. HTC-DC Net is composed of the backbone network as the feature extractor, the HTC-AdaBins module, and the hybrid regression process. The HTC-AdaBins module serves as the classification phase to determine bins adaptive to each input image. It is equipped with a vision transformer encoder to incorporate local context with holistic information and involves an HTC to address the long-tailed problem in monocular height estimation for balancing the performances of foreground and background pixels. The hybrid regression process does the regression via the smoothing of bins from the classification phase, which is trained via DCs. The proposed network is tested on three datasets of different resolutions, namely ISPRS Vaihingen (0.09 m), DFC19 (1.3 m) and GBH (3 m). Experimental results show the superiority of the proposed network over existing methods by large margins. Extensive ablation studies demonstrate the effectiveness of each design component.
arxiv情報
著者 | Sining Chen,Yilei Shi,Zhitong Xiong,Xiao Xiang Zhu |
発行日 | 2023-09-28 14:50:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google