VideoChat: Chat-Centric Video Understanding

要約

本論文では、VideoChatと呼ばれる、エンドツーエンドのチャット中心のビデオ理解システムを開発する試みを開始する。VideoChatは、時空間推論、事象定位、因果関係推論を得意とし、学習可能なニューラル・インターフェースを介して、ビデオ基礎モデルと大規模言語モデルを統合する。このシステムを指導的に調整するために、詳細な説明と会話に関連付けられた数千の動画からなる動画中心の指導データセットを構築する。このデータセットは時空間推論を重視し、因果関係を捉えており、我々のチャット中心ビデオ理解システムを訓練するための貴重な資産を提供する。予備的な定性的実験により、幅広いビデオアプリケーションにおける我々のシステムの可能性が実証されており、チャット中心のビデオ理解に関する将来の研究のためのシンプルなプロトタイプシステムとして機能する可能性がある。コードとデータへのアクセスは https://github.com/OpenGVLab/Ask-Anything から。

要約(オリジナル)

In this paper, we initiate an attempt of developing an end-to-end chat-centric video understanding system, coined as VideoChat. It integrates video foundation models and large language models via a learnable neural interface, excelling in spatiotemporal reasoning, event localization, and causal relationship inference. To instructively tune this system, we build a video-centric instruction dataset, composed of thousands of videos associated with detailed descriptions and conversations. This dataset emphasizes spatiotemporal reasoning and captures causal relationships, providing a valuable asset for training our chat-centric video understanding system. Preliminary qualitative experiments demonstrate the potential of our system across a broad spectrum of video applications, which could serve as a simple prototype system for future research on chat-centric video understanding. Access our code and data at https://github.com/OpenGVLab/Ask-Anything

arxiv情報

著者 KunChang Li,Yinan He,Yi Wang,Yizhuo Li,Wenhai Wang,Ping Luo,Yali Wang,Limin Wang,Yu Qiao
発行日 2024-01-04 02:06:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク