要約
大規模言語モデル (LLM) を活用した会話エージェントは、ビジュアル データを操作する新しい方法を提供します。
画像ベースの会話モデルに対する初期の試みはありましたが、この研究では、Video-ChatGPT を導入することで、ビデオベースの会話という未開発の分野に取り組んでいます。
これは、ビデオに適応したビジュアル エンコーダーと LLM を統合したマルチモーダル モデルです。
このモデルは、ビデオに関する人間のような会話を理解し、生成することができます。
手動および半自動のパイプラインを介して取得された、Video-ChatGPT のトレーニングに使用される 100,000 個のビデオ命令ペアの新しいデータセットを紹介します。このデータセットは、簡単にスケーラブルでラベル ノイズに対して堅牢です。
また、提案されたモデルの長所と短所を客観的に分析するために、ビデオベースの対話モデルの定量的評価フレームワークを開発します。
私たちのコード、モデル、命令セット、デモは https://github.com/mbzuai-oryx/Video-ChatGPT でリリースされています。
要約(オリジナル)
Conversation agents fueled by Large Language Models (LLMs) are providing a new way to interact with visual data. While there have been initial attempts for image-based conversation models, this work addresses the underexplored field of video-based conversation by introducing Video-ChatGPT. It is a multimodal model that merges a video-adapted visual encoder with a LLM. The model is capable of understanding and generating human-like conversations about videos. We introduce a new dataset of 100,000 video-instruction pairs used to train Video-ChatGPT acquired via manual and semi-automated pipeline that is easily scalable and robust to label noise. We also develop a quantiative evaluation framework for video-based dialogue models to objectively analyse the strengths and weaknesses of proposed models. Our code, models, instruction-sets and demo are released at https://github.com/mbzuai-oryx/Video-ChatGPT.
arxiv情報
著者 | Muhammad Maaz,Hanoona Rasheed,Salman Khan,Fahad Shahbaz Khan |
発行日 | 2023-06-08 17:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google