Video ChatCaptioner: Towards Enriched Spatiotemporal Descriptions

要約

タイトル:Video ChatCaptioner:富んだ時空間の表現に向けて
要約:
– ビデオキャプショニングは、自然言語を使って動的なシーンを伝え、環境内の時空間情報の理解を容易にすることを目的としています。
– これまでに進歩があるものの、詳細なビデオ説明を生成することは依然として大きな課題です。
– 本研究では、より包括的な時空間ビデオ説明を作成するための革新的なアプローチであるVideo ChatCaptionerを紹介しています。
– ChatGPTモデルをコントローラとして使用し、ビデオコンテンツに基づく質問のフレームを選択するように特別に設計されています。
– 次に、強固なアルゴリズムがこれらのビジュアルクエリに答えるために使用されます。
– この質問・回答のフレームワークは、複雑なビデオの詳細を効果的に明らかにし、ビデオコンテンツを強化する方法として有望です。
– 複数の会話ラウンドに続いて、ChatGPTは前回の会話に基づいて豊富なビデオコンテンツを要約することができます。
– Video ChatCaptionerは、ビデオに関する視覚的な詳細を含むキャプションを生成できることを qualitatively demonstrate しました。
– コードは https://github.com/Vision-CAIR/ChatCaptioner で公開されています。

要約(オリジナル)

Video captioning aims to convey dynamic scenes from videos using natural language, facilitating the understanding of spatiotemporal information within our environment. Although there have been recent advances, generating detailed and enriched video descriptions continues to be a substantial challenge. In this work, we introduce Video ChatCaptioner, an innovative approach for creating more comprehensive spatiotemporal video descriptions. Our method employs a ChatGPT model as a controller, specifically designed to select frames for posing video content-driven questions. Subsequently, a robust algorithm is utilized to answer these visual queries. This question-answer framework effectively uncovers intricate video details and shows promise as a method for enhancing video content. Following multiple conversational rounds, ChatGPT can summarize enriched video content based on previous conversations. We qualitatively demonstrate that our Video ChatCaptioner can generate captions containing more visual details about the videos. The code is publicly available at https://github.com/Vision-CAIR/ChatCaptioner

arxiv情報

著者 Jun Chen,Deyao Zhu,Kilichbek Haydarov,Xiang Li,Mohamed Elhoseiny
発行日 2023-04-13 11:22:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク