Multimodal Learning for detecting urban functional zones using remote sensing image and multi-semantic information

要約

都市関心地域 (AOI) は、境界が定義された統合された都市機能ゾーンを指します。
都市商業の急速な発展により、AOI を定義する際により正確な要件が求められるようになりました。
しかし、既存の研究は主に都市計画や地域経済分析のための広範な AOI マイニングに焦点を当てており、モバイル インターネットのオンラインからオフラインへのビジネスの正確な要件に対応できていません。
これらのビジネスでは、特定の地域社会、学校、病院に至るまでの正確性が必要です。
本稿では、リモートセンシング画像とマルチセマンティクス参照情報を使用してAOIフェンスポリゴンを検​​出するためのエンドツーエンドのマルチモーダル深層学習アルゴリズムを提案します。
次に、人間の動的な移動と物流の住所情報を組み込んだカスケード モジュールを通じて、その適時性を評価します。
具体的には、特定のカテゴリの興味のある地点 (POI) を選択することから始め、それを使用して、対応するリモート センシング画像、近くの POI、道路ノード、人の移動性、および物流の住所を呼び出し、トランスフォーマーに基づくマルチモーダル検出モデルを構築します。
AOITR というタイトルのエンコーダ/デコーダ アーキテクチャ。
モデルには、リモートセンシング画像に加えて、コアPOIや道路ノードを含むマルチセマンティック情報が埋め込まれ、トランスデコーダがAOIポリゴンを生成するためのクエリコンテンツ部分として再編成されます。
一方、人間のモビリティ、近隣の POI、物流住所の比較的動的な分布特徴は、カスケード フィードフォワード ネットワークを通じて AOI の信頼性評価に使用されます。
実験結果は、私たちのアルゴリズムが 2 つの既存の方法よりも大幅に優れていることを示しています。

要約(オリジナル)

Urban area-of-interest (AOI) refers to an integrated urban functional zone with defined boundaries. The rapid development of urban commerce has resulted in an increased demand for more precise requirements in defining AOIs. However, existing research primarily concentrates on broad AOI mining for urban planning or regional economic analysis, failing to cater to the precise requirements of mobile Internet online-to-offline businesses. These businesses necessitate accuracy down to a specific community, school, or hospital. In this paper, we propose an end-to-end multimodal deep learning algorithm for detecting AOI fence polygon using remote sensing images and multi-semantics reference information. We then evaluate its timeliness through a cascaded module that incorporates dynamic human mobility and logistics address information. Specifically, we begin by selecting a point-of-interest (POI) of specific category, and use it to recall corresponding remote sensing images, nearby POIs, road nodes, human mobility, and logistics addresses to build a multimodal detection model based on transformer encoder-decoder architecture, titled AOITR. In the model, in addition to the remote sensing images, multi-semantic information including core POI and road nodes is embedded and reorganized as the query content part for the transformer decoder to generate the AOI polygon. Meanwhile, relatively dynamic distribution features of human mobility, nearby POIs, and logistics addresses are used for AOI reliability evaluation through a cascaded feedforward network. The experimental results demonstrate that our algorithm significantly outperforms two existing methods.

arxiv情報

著者 Chuanji Shi,Yingying Zhang,Jiaotuan Wang,Qiqi Zhu
発行日 2024-01-12 12:54:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T99, cs.AI, cs.CV, I.4.9 パーマリンク