要約
マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、有望な結果が示されていますが、既存のアプローチでは、時間的ローカリゼーションと空間的ローカリゼーションの両方を同時に効果的に処理するのが困難です。
この課題は 2 つの重要な問題から生じています。1 つは、時空間位置特定を組み込むと膨大な数の座標の組み合わせが導入され、言語と視覚の座標表現の調整が複雑になることです。
第 2 に、ビデオ特徴圧縮中にきめの細かい時間的および空間的情報をエンコードすることは本質的に困難です。
これらの問題に対処するために、私たちは、きめ細かい時空間マルチモーダル理解を実現する MLLM である LLaVA-ST を提案します。
LLaVA-ST では、言語に合わせた位置埋め込みを提案します。これは、テキスト座標の特別なトークンを視覚空間に埋め込み、きめの細かい時空間対応の調整を簡素化します。
さらに、時間解像度と空間解像度の特徴圧縮を 2 つの異なるポイントツーリージョン アテンション処理ストリームに分離する、時空間パッカーを設計します。
さらに、細粒度の時空間マルチモーダル理解のために、430 万のトレーニング サンプルを含む ST-Align データセットを提案します。
ST-Align を使用すると、粗い段階から細かい段階への連続的な段階を通じて視覚的特徴とテキストの特徴を調整するプログレッシブ トレーニング パイプラインを提供します。さらに、時空間インターリーブの詳細な理解タスクを評価するための ST-Align ベンチマークを導入します。
時空間ビデオ グラウンディング (STVG)、イベント ローカリゼーションとキャプション (ELC)、および空間ビデオ グラウンディング (SVG)。
LLaVA-ST は、きめ細かい時間的、空間的、または時空間インターリーブのマルチモーダルな理解を必要とする 11 のベンチマークで優れたパフォーマンスを達成します。
コード、データ、ベンチマークは https://github.com/appletea233/LLaVA-ST でリリースされます。
要約(オリジナル)
Recent advancements in multimodal large language models (MLLMs) have shown promising results, yet existing approaches struggle to effectively handle both temporal and spatial localization simultaneously. This challenge stems from two key issues: first, incorporating spatial-temporal localization introduces a vast number of coordinate combinations, complicating the alignment of linguistic and visual coordinate representations; second, encoding fine-grained temporal and spatial information during video feature compression is inherently difficult. To address these issues, we propose LLaVA-ST, a MLLM for fine-grained spatial-temporal multimodal understanding. In LLaVA-ST, we propose Language-Aligned Positional Embedding, which embeds the textual coordinate special token into the visual space, simplifying the alignment of fine-grained spatial-temporal correspondences. Additionally, we design the Spatial-Temporal Packer, which decouples the feature compression of temporal and spatial resolutions into two distinct point-to-region attention processing streams. Furthermore, we propose ST-Align dataset with 4.3M training samples for fine-grained spatial-temporal multimodal understanding. With ST-align, we present a progressive training pipeline that aligns the visual and textual feature through sequential coarse-to-fine stages.Additionally, we introduce an ST-Align benchmark to evaluate spatial-temporal interleaved fine-grained understanding tasks, which include Spatial-Temporal Video Grounding (STVG) , Event Localization and Captioning (ELC) and Spatial Video Grounding (SVG). LLaVA-ST achieves outstanding performance on 11 benchmarks requiring fine-grained temporal, spatial, or spatial-temporal interleaving multimodal understanding. Our code, data and benchmark will be released at Our code, data and benchmark will be released at https://github.com/appletea233/LLaVA-ST .
arxiv情報
著者 | Hongyu Li,Jinyu Chen,Ziyu Wei,Shaofei Huang,Tianrui Hui,Jialin Gao,Xiaoming Wei,Si Liu |
発行日 | 2025-01-14 17:58:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google