要約
マルチモーダルビデオからテキストへのモデルは、主にビデオコンテンツの簡単な説明の生成において大幅な進歩を遂げました。
ただし、ビデオとオーディオの両方を統合したリッチな長文テキストの説明を生成するにはまだ不十分です。
この論文では、音声、ビデオ、文字認識を組み合わせて新しい長さのテキストを生成するように設計された M2S と呼ばれるフレームワークを紹介します。
M2S には、ビデオの長文テキストの説明と理解、感情、発話速度、文字の配置に関する音声ベースの分析、および視覚ベースの文字認識の配置のためのモジュールが含まれています。
M2S は、大規模言語モデル GPT4o を使用してマルチモーダル情報を統合することにより、マルチモーダル テキスト生成の分野で際立っています。
比較実験や人による評価を通じて、M2Sの有効性と精度を実証します。
さらに、モデル フレームワークには優れた拡張性があり、将来の研究に大きな可能性をもたらします。
要約(オリジナル)
Multimodal video-to-text models have made considerable progress, primarily in generating brief descriptions of video content. However, there is still a deficiency in generating rich long-form text descriptions that integrate both video and audio. In this paper, we introduce a framework called M2S, designed to generate novel-length text by combining audio, video, and character recognition. M2S includes modules for video long-form text description and comprehension, audio-based analysis of emotion, speech rate, and character alignment, and visual-based character recognition alignment. By integrating multimodal information using the large language model GPT4o, M2S stands out in the field of multimodal text generation. We demonstrate the effectiveness and accuracy of M2S through comparative experiments and human evaluation. Additionally, the model framework has good scalability and significant potential for future research.
arxiv情報
著者 | Kangning Li,Zheyang Jia,Anyu Ying |
発行日 | 2024-12-19 15:44:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google