要約
マルチモーダルオブジェクトの再識別(REID)は、複雑な現実世界のシナリオで正確な認識と検索を可能にするために、異種のスペクトルモダリティ全体でアイデンティティ機能を抽出することを目的としています。
ただし、ほとんどの既存の方法は、暗黙の特徴融合構造に依存しているため、さまざまな困難な条件の下できめ細かい認識戦略をモデル化することが困難です。
マルチモーダル大手言語モデル(MLLM)の強力なセマンティック理解機能の恩恵を受けると、オブジェクトの視覚的な外観は、説明的なテキストに効果的に翻訳できます。
この論文では、属性信頼性に基づいて信頼性の高いマルチモーダルキャプション生成方法を提案します。これにより、マルチモーダルセマンティック生成におけるMLLMの未知の認識率が大幅に低下し、生成されたテキストの品質が向上します。
さらに、次に、新しいReidフレームワークを提案します。次に、マルチモーダルオブジェクトの再識別のためのテキスト変調による専門家のマルチグレイン混合物を提案します。
具体的には、認識問題をセマンティックおよび構造の専門家ブランチに分離して、モダリティ固有の外観と内因性構造を個別にキャプチャします。
セマンティック認識のために、テキスト変調されたセマンティックサンプリングの専門家(TMSE)を提案します。これは、ランダムにサンプリングされた高品質のセマンティックテキストを活用して、マルチモーダル機能の専門家固有のサンプリングを調整し、モダリティ内の細かいセマンティックキューを採掘します。
次に、粗粒の構造の特徴を認識するために、モダリティ全体で全体的なオブジェクト構造をキャプチャすることに焦点を当て、ソフトルーティングメカニズムを介してモダリティ間構造の一貫性を維持するコンテキスト共有構造認識の専門家(CSSE)を提案します。
最後に、マルチモーダル機能集約(MMFA)を提案します。これは、セマンティックおよび構造の専門家の出力を最終的なアイデンティティ表現に簡単かつ効果的に統合するための統一された機能融合戦略を採用しています。
要約(オリジナル)
Multi-modal object re-identification (ReID) aims to extract identity features across heterogeneous spectral modalities to enable accurate recognition and retrieval in complex real-world scenarios. However, most existing methods rely on implicit feature fusion structures, making it difficult to model fine-grained recognition strategies under varying challenging conditions. Benefiting from the powerful semantic understanding capabilities of Multi-modal Large Language Models (MLLMs), the visual appearance of an object can be effectively translated into descriptive text. In this paper, we propose a reliable multi-modal caption generation method based on attribute confidence, which significantly reduces the unknown recognition rate of MLLMs in multi-modal semantic generation and improves the quality of generated text. Additionally, we propose a novel ReID framework NEXT, the Multi-grained Mixture of Experts via Text-Modulation for Multi-modal Object Re-Identification. Specifically, we decouple the recognition problem into semantic and structural expert branches to separately capture modality-specific appearance and intrinsic structure. For semantic recognition, we propose the Text-Modulated Semantic-sampling Experts (TMSE), which leverages randomly sampled high-quality semantic texts to modulate expert-specific sampling of multi-modal features and mining intra-modality fine-grained semantic cues. Then, to recognize coarse-grained structure features, we propose the Context-Shared Structure-aware Experts (CSSE) that focuses on capturing the holistic object structure across modalities and maintains inter-modality structural consistency through a soft routing mechanism. Finally, we propose the Multi-Modal Feature Aggregation (MMFA), which adopts a unified feature fusion strategy to simply and effectively integrate semantic and structural expert outputs into the final identity representations.
arxiv情報
著者 | Shihao Li,Chenglong Li,Aihua Zheng,Andong Lu,Jin Tang,Jixin Ma |
発行日 | 2025-05-26 13:52:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google