Similarity Guided Multimodal Fusion Transformer for Semantic Location Prediction in Social Media

要約

セマンティック位置予測の目的は、マルチモーダルなソーシャル メディア投稿から関連するセマンティック位置情報を抽出し、GPS 座標と比較して日常の活動をより状況に応じた理解を提供することです。
ただし、「テキストと画像」のペアにノイズや無関係な情報が存在するため、この作業は困難になります。
既存の方法では、特徴表現が不十分であり、異なる粒度での類似性の包括的な統合が考慮されていないため、ノイズや無関係な情報をフィルタリングして除去することが困難になります。
これらの課題に対処するために、ソーシャル ユーザーのセマンティックな位置を予測するための類似性ガイド付きマルチモーダル融合トランスフォーマー (SG-MFT) を提案します。
まず、事前トレーニングされた大規模ビジョン言語モデルを利用して、ソーシャル メディアの投稿から高品質の特徴表現を抽出します。
次に、モダリティ相互作用に粗粒および細粒の類似性ガイダンスを組み込むことで、モダリティの異質性とノイズ干渉を軽減する類似性ガイド付きインタラクション モジュール (SIM) を導入します。
具体的には、モダリティごとの類似性を利用して異質性を緩和し、各モダリティ内のノイズを低減する、粗いレベルでの新しい類似性認識特徴補間アテンションメカニズムを提案します。
一方、類似性を意識したフィードフォワード ブロックを細かいレベルで採用し、要素ごとの類似性を利用してモダリティの異質性の影響をさらに軽減します。
ノイズとモーダル干渉を最小限に抑えた前処理された特徴に基づいて、クロスアテンション メカニズムで 2 つのモダリティを融合する類似性認識特徴融合モジュール (SFM) を提案します。
包括的な実験結果は、効率的な融合効果を維持しながらモダリティの不均衡を処理する上で、私たちが提案する方法の優れたパフォーマンスを実証しています。

要約(オリジナル)

The purpose of semantic location prediction is to extract relevant semantic location information from multimodal social media posts, offering a more contextual understanding of daily activities compared to GPS coordinates. However, this task becomes challenging due to the presence of noise and irrelevant information in ‘text-image’ pairs. Existing methods suffer from insufficient feature representations and fail to consider the comprehensive integration of similarity at different granularities, making it difficult to filter out noise and irrelevant information. To address these challenges, we propose a Similarity-Guided Multimodal Fusion Transformer (SG-MFT) for predicting social users’ semantic locations. First, we utilize a pre-trained large-scale vision-language model to extract high-quality feature representations from social media posts. Then, we introduce a Similarity-Guided Interaction Module (SIM) to alleviate modality heterogeneity and noise interference by incorporating coarse-grained and fine-grained similarity guidance for modality interactions. Specifically, we propose a novel similarity-aware feature interpolation attention mechanism at the coarse level, leveraging modality-wise similarity to mitigate heterogeneity and reduce noise within each modality. Meanwhile, we employ a similarity-aware feed-forward block at the fine level, utilizing element-wise similarity to further mitigate the impact of modality heterogeneity. Building upon pre-processed features with minimal noise and modal interference, we propose a Similarity-aware Feature Fusion Module (SFM) to fuse two modalities with cross-attention mechanism. Comprehensive experimental results demonstrate the superior performance of our proposed method in handling modality imbalance while maintaining efficient fusion effectiveness.

arxiv情報

著者 Zhizhen Zhang,Ning Wang,Haojie Li,Zhihui Wang
発行日 2024-05-09 13:32:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク