要約
ビデオ認識モデルは近年目覚ましい進歩を遂げていますが、ビデオ認識タスクを実行する前にターゲット インスタンスを識別するために、依然として明示的なテキスト記述または事前定義されたカテゴリに大きく依存しています。
ただし、これらのモデルは、テキスト入力を介してユーザーの意図を積極的に理解して推論することができません。
これまでの研究では、画像セグメンテーションによる推論を組み込む解決策を調査しようとしましたが、ビデオのオブジェクトの動きの複雑さのため、ビデオを使った推論は失敗しました。
画像とビデオの間のギャップを埋めるために、この研究では、新しいビデオ セグメンテーション タスクであるビデオ推論セグメンテーションを提案します。
このタスクは、複雑な入力テキスト クエリを指定してセグメンテーション マスクのトラックレットを出力するように設計されています。
さらに、この未踏領域の研究を促進するために、推論ビデオ セグメンテーション ベンチマークを構築します。
最後に、ViLLa: 大規模言語モデルを使用したビデオ推論セグメンテーションを紹介します。これは、複数のインスタンスを検出、セグメント化、追跡する機能を保持しながら、マルチモーダル大規模言語モデル (LLM) の言語生成機能を組み込んでいます。
私たちは、時間認識コンテキスト集約モジュールを使用して、コンテキストの視覚的手がかりをテキスト埋め込みに組み込み、セグメンテーション トークン間の時間相関を構築するビデオ フレーム デコーダーを提案します。
驚くべきことに、当社の ViLLa は、複雑な推論と参照ビデオ セグメンテーションの処理能力を実証しています。
また、私たちのモデルは、さまざまな時間的理解ベンチマークにおいて優れた能力を示しています。
定量的実験と定性的実験の両方で、私たちの方法がマルチモーダル LLM の新しいビデオ推論セグメンテーション機能を効果的に解放することが示されています。
コードとデータセットは https://github.com/rkzheng99/ViLLa で入手できます。
要約(オリジナル)
Although video perception models have made remarkable advancements in recent years, they still heavily rely on explicit text descriptions or pre-defined categories to identify target instances before executing video perception tasks. These models, however, fail to proactively comprehend and reason the user’s intentions via textual input. Even though previous works attempt to investigate solutions to incorporate reasoning with image segmentation, they fail to reason with videos due to the video’s complexity in object motion. To bridge the gap between image and video, in this work, we propose a new video segmentation task – video reasoning segmentation. The task is designed to output tracklets of segmentation masks given a complex input text query. What’s more, to promote research in this unexplored area, we construct a reasoning video segmentation benchmark. Finally, we present ViLLa: Video reasoning segmentation with a Large Language Model, which incorporates the language generation capabilities of multimodal Large Language Models (LLMs) while retaining the capabilities of detecting, segmenting, and tracking multiple instances. We use a temporal-aware context aggregation module to incorporate contextual visual cues to text embeddings and propose a video-frame decoder to build temporal correlations across segmentation tokens. Remarkably, our ViLLa demonstrates capability in handling complex reasoning and referring video segmentation. Also, our model shows impressive ability in different temporal understanding benchmarks. Both quantitative and qualitative experiments show our method effectively unlocks new video reasoning segmentation capabilities for multimodal LLMs. The code and dataset will be available at https://github.com/rkzheng99/ViLLa.
arxiv情報
著者 | Rongkun Zheng,Lu Qi,Xi Chen,Yi Wang,Kun Wang,Yu Qiao,Hengshuang Zhao |
発行日 | 2024-07-29 13:32:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google