要約
効果的な経路表現の開発は、インテリジェント交通のさまざまな分野でますます重要になっています。
事前トレーニングされたパス表現学習モデルはパフォーマンスの向上を示していますが、主に単一モダリティ データ、つまり道路ネットワークからのトポロジカル構造に焦点を当てており、リモート センシング画像などのパス関連画像に関連付けられた幾何学的特徴や文脈的特徴が見落とされています。
人間の理解と同様に、複数のモダリティからの情報を統合すると、より包括的なビューが提供され、表現の精度と一般化の両方が向上します。
ただし、情報の粒度の変化により、道路網ベースのパス (道路パス) と画像ベースのパス (画像パス) のセマンティックな調整が妨げられる一方、マルチモーダル データの異質性により、効果的な融合と利用には大きな課題が生じます。
この論文では、道路パスと画像パスの両方からモダリティを統合することによって一般的なパス表現を学習できる、新しいマルチモーダル、多粒度パス表現学習フレームワーク (MM-Path) を提案します。
マルチモーダル データの調整を強化するために、ノード、道路サブパス、および道路パスを対応する画像パッチに体系的に関連付け、詳細なローカル情報とより広範なグローバル コンテキストの両方の同期を確保する、多粒度調整戦略を開発します。
マルチモーダル データの不均一性に効果的に対処するために、さまざまなモダリティや粒度にわたる情報を包括的に融合するように設計された、グラフベースのクロスモーダル残差融合コンポーネントを導入します。
最後に、2 つの下流タスクの下で 2 つの大規模な現実世界のデータセットに対して広範な実験を実施し、提案された MM-Path の有効性を検証します。
コードは https://github.com/decionintelligence/MM-Path から入手できます。
要約(オリジナル)
Developing effective path representations has become increasingly essential across various fields within intelligent transportation. Although pre-trained path representation learning models have shown improved performance, they predominantly focus on the topological structures from single modality data, i.e., road networks, overlooking the geometric and contextual features associated with path-related images, e.g., remote sensing images. Similar to human understanding, integrating information from multiple modalities can provide a more comprehensive view, enhancing both representation accuracy and generalization. However, variations in information granularity impede the semantic alignment of road network-based paths (road paths) and image-based paths (image paths), while the heterogeneity of multi-modal data poses substantial challenges for effective fusion and utilization. In this paper, we propose a novel Multi-modal, Multi-granularity Path Representation Learning Framework (MM-Path), which can learn a generic path representation by integrating modalities from both road paths and image paths. To enhance the alignment of multi-modal data, we develop a multi-granularity alignment strategy that systematically associates nodes, road sub-paths, and road paths with their corresponding image patches, ensuring the synchronization of both detailed local information and broader global contexts. To address the heterogeneity of multi-modal data effectively, we introduce a graph-based cross-modal residual fusion component designed to comprehensively fuse information across different modalities and granularities. Finally, we conduct extensive experiments on two large-scale real-world datasets under two downstream tasks, validating the effectiveness of the proposed MM-Path. The code is available at: https://github.com/decisionintelligence/MM-Path.
arxiv情報
著者 | Ronghui Xu,Hanyin Cheng,Chenjuan Guo,Hongfan Gao,Jilin Hu,Sean Bin Yang,Bin Yang |
発行日 | 2024-11-28 02:53:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google