Improving Facade Parsing with Vision Transformers and Line Integration

要約

ファサード解析は、建築、都市計画、エネルギー効率などの分野で広範囲に応用される極めて重要なコンピューター ビジョン タスクとして機能します。
深層学習ベースの手法は最近、特定のオープンソース データセットで目覚ましい結果をもたらすことに成功しましたが、現実世界のアプリケーションでの実現可能性は依然として不確実です。
現実世界のシナリオはかなり複雑であり、より高い計算効率が求められます。
既存のデータセットはこれらの設定を表現するには不十分であることが多く、以前の方法では精度を高めるために追加のモデルに依存することが多く、これには多くの計算コストが必要です。
このペーパーでは、現実世界のファサード解析タスクの複雑さを網羅するように細心の注意を払って設計されたデータセットである、包括的ファサード解析 (CFP) を紹介します。
合計 602 枚の高解像度ストリートビュー画像で構成されるこのデータセットは、傾斜角や密集した建物など、さまざまな困難なシナリオをキャプチャしており、各画像に対して入念に精選された注釈が付けられています。
Revision-based Transformer Facade Parsing (RTFP) として知られる新しいパイプラインを導入します。
これは、ファサード解析におけるビジョン トランスフォーマー (ViT) の先駆的な利用法であり、私たちの実験結果はそのメリットを明確に実証しています。
また、ファサードの事前知識を使用した単純なライン検出だけでセグメント結果を改善できる、効率的かつ正確な修正アルゴリズムであるライン取得、フィルタリング、および修正 (LAFR) も設計します。
ECP 2011、RueMonge 2014、および当社の CFP では、当社の手法の優位性を評価しています。
データセットとコードは https://github.com/wbw520/RTFP で入手できます。

要約(オリジナル)

Facade parsing stands as a pivotal computer vision task with far-reaching applications in areas like architecture, urban planning, and energy efficiency. Despite the recent success of deep learning-based methods in yielding impressive results on certain open-source datasets, their viability for real-world applications remains uncertain. Real-world scenarios are considerably more intricate, demanding greater computational efficiency. Existing datasets often fall short in representing these settings, and previous methods frequently rely on extra models to enhance accuracy, which requires much computation cost. In this paper, we introduce Comprehensive Facade Parsing (CFP), a dataset meticulously designed to encompass the intricacies of real-world facade parsing tasks. Comprising a total of 602 high-resolution street-view images, this dataset captures a diverse array of challenging scenarios, including sloping angles and densely clustered buildings, with painstakingly curated annotations for each image. We introduce a new pipeline known as Revision-based Transformer Facade Parsing (RTFP). This marks the pioneering utilization of Vision Transformers (ViT) in facade parsing, and our experimental results definitively substantiate its merit. We also design Line Acquisition, Filtering, and Revision (LAFR), an efficient yet accurate revision algorithm that can improve the segment result solely from simple line detection using prior knowledge of the facade. In ECP 2011, RueMonge 2014, and our CFP, we evaluate the superiority of our method. The dataset and code are available at https://github.com/wbw520/RTFP.

arxiv情報

著者 Bowen Wang,Jiaxing Zhang,Ran Zhang,Yunqin Li,Liangzhi Li,Yuta Nakashima
発行日 2023-10-05 14:13:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク