要約
【タイトル】
動画からテキスト生成のための2段階の事前トレーニング、VideoOFA
【要約】
– 動画キャプションや動画に対する質問応答などの動画からテキスト生成のタスクに対して、新しい2段階の事前トレーニングフレームワークを提案。
– 最初に、生成的エンコーダ・デコーダーモデルが大量の画像テキストデータに共同で事前トレーニングされ、基本的なビジョン・言語の概念を学ぶ。
– 次に、中間の動画テキスト事前トレーニング段階で、ビデオ特有のスペーシャル・テンポラルな推論など、動画に特化したスキルを学習するように適応される。
– 結果、VideoOFAモデルは、4つの動画キャプションベンチマークで新しい最高性能を達成し、CIDErスコアでは、事前のベンチマークを平均9.7ポイント上回った。
– 2つのオープンエンドのビデオ質問応答データセットでも既存のモデルを上回り、汎用的なビデオからテキストのモデルとしての汎用性を示している。
要約(オリジナル)
We propose a new two-stage pre-training framework for video-to-text generation tasks such as video captioning and video question answering: A generative encoder-decoder model is first jointly pre-trained on massive image-text data to learn fundamental vision-language concepts, and then adapted to video data in an intermediate video-text pre-training stage to learn video-specific skills such as spatio-temporal reasoning. As a result, our VideoOFA model achieves new state-of-the-art performance on four Video Captioning benchmarks, beating prior art by an average of 9.7 points in CIDEr score. It also outperforms existing models on two open-ended Video Question Answering datasets, showcasing its generalization capability as a universal video-to-text model.
arxiv情報
著者 | Xilun Chen,Lili Yu,Wenhan Xiong,Barlas Oğuz,Yashar Mehdad,Wen-tau Yih |
発行日 | 2023-05-04 23:27:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI