要約
マルチモーダル データの活用は、地理的オブジェクトを理解するための本質的な要件です。
しかし、さまざまな時空間モダリティ間の構造と意味論の異質性が高いため、マルチモーダル時空間データの統合解釈は長い間、非常に困難な問題でした。
主な課題は、多様なモダリティの凝集性と自律性の間のトレードオフを達成することにあります。
モダリティの数が増加するにつれて、このトレードオフは徐々に非線形になります。
五感からの知覚信号が言語に収束する人間の認知システムと言語哲学に触発され、マルチモーダルな統一モデルを構築するための基本原理である参照としての言語フレームワーク (LaRF) を紹介します。
これに基づいて、マルチモーダル時空間汎用人工知能モデルである AllSpark を提案します。
私たちのモデルは、10 の異なるモダリティを統一フレームワークに統合します。
モーダルの凝集性を実現するために、AllSpark はモーダル ブリッジとマルチモーダル大規模言語モデル (LLM) を導入し、多様なモーダル機能を言語機能空間にマッピングします。
モダリティの自律性を維持するために、AllSpark はモダリティ固有のエンコーダーを使用して、さまざまな時空間モダリティのトークンを抽出します。
最後に、モデルの解釈可能性と下流タスクの間のギャップを観察して、モダリティ固有のプロンプトとタスクヘッドを設計し、特定のタスク全体にわたるモデルの一般化機能を強化しました。
実験の結果、言語の組み込みにより、AllSpark が追加のトレーニングなしで RGB および点群モダリティの数ショット分類タスクで優れた性能を発揮し、ベースライン パフォーマンスを最大 41.82\% 上回ることが示されました。
ソース コードは https://github.com/GeoX-Lab/AllSpark で入手できます。
要約(オリジナル)
Leveraging multimodal data is an inherent requirement for comprehending geographic objects. However, due to the high heterogeneity in structure and semantics among various spatio-temporal modalities, the joint interpretation of multimodal spatio-temporal data has long been an extremely challenging problem. The primary challenge resides in striking a trade-off between the cohesion and autonomy of diverse modalities. This trade-off becomes progressively nonlinear as the number of modalities expands. Inspired by the human cognitive system and linguistic philosophy, where perceptual signals from the five senses converge into language, we introduce the Language as Reference Framework (LaRF), a fundamental principle for constructing a multimodal unified model. Building upon this, we propose AllSpark, a multimodal spatio-temporal general artificial intelligence model. Our model integrates ten different modalities into a unified framework. To achieve modal cohesion, AllSpark introduces a modal bridge and multimodal large language model (LLM) to map diverse modal features into the language feature space. To maintain modality autonomy, AllSpark uses modality-specific encoders to extract the tokens of various spatio-temporal modalities. Finally, observing a gap between the model’s interpretability and downstream tasks, we designed modality-specific prompts and task heads, enhancing the model’s generalization capability across specific tasks. Experiments indicate that the incorporation of language enables AllSpark to excel in few-shot classification tasks for RGB and point cloud modalities without additional training, surpassing baseline performance by up to 41.82\%. The source code is available at https://github.com/GeoX-Lab/AllSpark.
arxiv情報
著者 | Run Shao,Cheng Yang,Qiujun Li,Qing Zhu,Yongjun Zhang,YanSheng Li,Yu Liu,Yong Tang,Dapeng Liu,Shizhong Yang,Haifeng Li |
発行日 | 2025-01-07 13:31:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google