Video ChatCaptioner: Towards Enriched Spatiotemporal Descriptions

要約

ビデオキャプションは、自然言語を使用してビデオのダイナミックなシーンを伝え、環境内の時空間情報の理解を容易にすることを目的としています。
最近の進歩はありますが、詳細で充実したビデオ説明を生成することは依然として大きな課題です。
この研究では、より包括的な時空間ビデオの説明を作成するための革新的なアプローチである Video ChatCaptioner を紹介します。
私たちの方法では、ChatGPT モデルをコントローラーとして採用しており、特にビデオ コンテンツ主導の質問を提示するためのフレームを選択するように設計されています。
その後、堅牢なアルゴリズムを利用して、これらの視覚的なクエリに答えます。
この質問と回答のフレームワークは、ビデオの複雑な詳細を効果的に明らかにし、ビデオ コンテンツを強化する方法として有望であることを示しています。
複数の会話ラウンドの後、ChatGPT は以前の会話に基づいて充実したビデオ コンテンツを要約できます。
Video ChatCaptioner がビデオに関するより視覚的な詳細を含むキャプションを生成できることを定性的に示しています。
コードは https://github.com/Vision-CAIR/ChatCaptioner で公開されています。

要約(オリジナル)

Video captioning aims to convey dynamic scenes from videos using natural language, facilitating the understanding of spatiotemporal information within our environment. Although there have been recent advances, generating detailed and enriched video descriptions continues to be a substantial challenge. In this work, we introduce Video ChatCaptioner, an innovative approach for creating more comprehensive spatiotemporal video descriptions. Our method employs a ChatGPT model as a controller, specifically designed to select frames for posing video content-driven questions. Subsequently, a robust algorithm is utilized to answer these visual queries. This question-answer framework effectively uncovers intricate video details and shows promise as a method for enhancing video content. Following multiple conversational rounds, ChatGPT can summarize enriched video content based on previous conversations. We qualitatively demonstrate that our Video ChatCaptioner can generate captions containing more visual details about the videos. The code is publicly available at https://github.com/Vision-CAIR/ChatCaptioner

arxiv情報

著者 Jun Chen,Deyao Zhu,Kilichbek Haydarov,Xiang Li,Mohamed Elhoseiny
発行日 2023-05-24 14:01:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク