要約
我々は、衛星画像から大規模なベクトル化された道路ネットワーク グラフを抽出するためのセグメント エニシング モデル (SAM) を適応させた SAM-Road を提案します。
グラフ ジオメトリを予測するには、SAM の固有の強みを活用して、グラフ ジオメトリを高密度セマンティック セグメンテーション タスクとして定式化します。
SAM の画像エンコーダは、道路や交差点の確率マスクを生成するように微調整されており、そこから単純な非最大抑制によってグラフの頂点が抽出されます。
グラフ トポロジを予測するために、SAM 画像埋め込みを利用して頂点間のエッジ存在確率を推定する、軽量のトランスフォーマー ベースのグラフ ニューラル ネットワークを設計しました。
私たちのアプローチは、高価で複雑な後処理ヒューリスティックを使用せずに、大規模な領域のグラフの頂点とエッジを直接予測し、数秒で数平方キロメートルにわたる完全な道路網グラフを構築できます。
SAM-Road は、そのシンプル、単純、最小限の設計により、最先端の手法である RNGDet++ と同等の精度を達成しながら、都市規模のデータセットでは 40 倍高速です。
したがって、グラフ学習タスクに適用した場合の基本的なビジョン モデルの威力を実証します。
コードは https://github.com/htcr/sam_road で入手できます。
要約(オリジナル)
We propose SAM-Road, an adaptation of the Segment Anything Model (SAM) for extracting large-scale, vectorized road network graphs from satellite imagery. To predict graph geometry, we formulate it as a dense semantic segmentation task, leveraging the inherent strengths of SAM. The image encoder of SAM is fine-tuned to produce probability masks for roads and intersections, from which the graph vertices are extracted via simple non-maximum suppression. To predict graph topology, we designed a lightweight transformer-based graph neural network, which leverages the SAM image embeddings to estimate the edge existence probabilities between vertices. Our approach directly predicts the graph vertices and edges for large regions without expensive and complex post-processing heuristics, and is capable of building complete road network graphs spanning multiple square kilometers in a matter of seconds. With its simple, straightforward, and minimalist design, SAM-Road achieves comparable accuracy with the state-of-the-art method RNGDet++, while being 40 times faster on the City-scale dataset. We thus demonstrate the power of a foundational vision model when applied to a graph learning task. The code is available at https://github.com/htcr/sam_road.
arxiv情報
著者 | Congrui Hetang,Haoru Xue,Cindy Le,Tianwei Yue,Wenping Wang,Yihui He |
発行日 | 2024-03-31 05:51:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google