ChatVideo: A Tracklet-centric Multimodal and Versatile Video Understanding System

要約

タイトル:「ChatVideo:トラックレット中心のマルチモーダルで多目的なビデオ理解システム」
要約:
– 深層学習によるビデオモデルは、固定的な入出力空間、特定の課題に制限され、一般化能力が低く、現実世界での展開が困難であるという問題がある。
– 本論文では、マルチモーダルかつ多目的なビデオ理解のビジョンを提案し、プロトタイプのシステム「ChatVideo」を提案する。
– ChatVideoは、トラックレットを基本的なビデオユニットとして扱い、様々なビデオファウンデーションモデルを使用して、外観、動きなどの特性を注釈付けるトラックレット中心のパラダイムに基づいて構築されている。
– 検出されたすべてのトラックレットはデータベースに保存され、データベースマネージャーを介してユーザーと対話する。
– 異なるタイプの野外のビデオについて広範なケーススタディを行い、私たちの手法がさまざまなビデオ関連の問題に対して効果的であることを実証している。
– プロジェクトはhttps://www.wangjunke.info/ChatVideo/で利用可能である。

要約(オリジナル)

Existing deep video models are limited by specific tasks, fixed input-output spaces, and poor generalization capabilities, making it difficult to deploy them in real-world scenarios. In this paper, we present our vision for multimodal and versatile video understanding and propose a prototype system, \system. Our system is built upon a tracklet-centric paradigm, which treats tracklets as the basic video unit and employs various Video Foundation Models (ViFMs) to annotate their properties e.g., appearance, motion, \etc. All the detected tracklets are stored in a database and interact with the user through a database manager. We have conducted extensive case studies on different types of in-the-wild videos, which demonstrates the effectiveness of our method in answering various video-related problems. Our project is available at https://www.wangjunke.info/ChatVideo/

arxiv情報

著者 Junke Wang,Dongdong Chen,Chong Luo,Xiyang Dai,Lu Yuan,Zuxuan Wu,Yu-Gang Jiang
発行日 2023-04-27 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク