ChatVideo: A Tracklet-centric Multimodal and Versatile Video Understanding System

要約

【タイトル】
ChatVideo:トラックレット中心の多様なマルチモーダルおよび多目的映像理解システム

【要約】
-既存の深層ビデオモデルは、特定のタスクに限定され、固定された入出力空間、および一般化能力の低さにより、実世界のシナリオでの配置が困難である。
-本論文で、我々はマルチモーダルで多目的なビデオ理解のためのビジョンを提案し、プロトタイプシステム「\system」を提案する。
-我々のシステムは、トラックレット中心のパラダイムに基づいて構築され、トラックレットを基本的なビデオユニットとして扱い、外観、動きなどのさまざまなビデオファンデーションモデル(ViFMs)を使用してそのプロパティを注釈付けする。
-検出されたすべてのトラックレットはデータベースに保存され、データベースマネージャを介してユーザーとやり取りする。
-我々は、異なるタイプの野生動画に関する包括的なケーススタディを実施し、我々の方法の多様なビデオ関連問題への効果を示した。
-プロジェクトは、https://www.wangjunke.info/ChatVideo/で利用可能です。

要約(オリジナル)

Existing deep video models are limited by specific tasks, fixed input-output spaces, and poor generalization capabilities, making it difficult to deploy them in real-world scenarios. In this paper, we present our vision for multimodal and versatile video understanding and propose a prototype system, \system. Our system is built upon a tracklet-centric paradigm, which treats tracklets as the basic video unit and employs various Video Foundation Models (ViFMs) to annotate their properties e.g., appearance, motion, \etc. All the detected tracklets are stored in a database and interact with the user through a database manager. We have conducted extensive case studies on different types of in-the-wild videos, which demonstrates the effectiveness of our method in answering various video-related problems. Our project is available at https://www.wangjunke.info/ChatVideo/

arxiv情報

著者 Junke Wang,Dongdong Chen,Chong Luo,Xiyang Dai,Lu Yuan,Zuxuan Wu,Yu-Gang Jiang
発行日 2023-04-29 03:48:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク