要約
ビデオから構造化情報を抽出することは、業界の多数の下流アプリケーションにとって重要です。
この論文では、ビデオ上のビジュアルテキストから階層キー情報を抽出するという重要なタスクを定義します。
このタスクを実行するために、それを 4 つのサブタスクに分離し、PipVKIE と UniVKIE と呼ばれる 2 つの実装ソリューションを導入します。
PipVKIE は 4 つのサブタスクを連続ステージで順番に完了しますが、UniVKIE はすべてのサブタスクを 1 つのバックボーンに統合することで改良されています。
PipVKIE と UniVKIE はどちらも、視覚、テキスト、座標からのマルチモーダル情報を機能表現に活用します。
明確に定義された 1 つのデータセットに対する広範な実験により、当社のソリューションが優れたパフォーマンスと効率的な推論速度を達成できることが実証されました。
要約(オリジナル)
Extracting structured information from videos is critical for numerous downstream applications in the industry. In this paper, we define a significant task of extracting hierarchical key information from visual texts on videos. To fulfill this task, we decouple it into four subtasks and introduce two implementation solutions called PipVKIE and UniVKIE. PipVKIE sequentially completes the four subtasks in continuous stages, while UniVKIE is improved by unifying all the subtasks into one backbone. Both PipVKIE and UniVKIE leverage multimodal information from vision, text, and coordinates for feature representation. Extensive experiments on one well-defined dataset demonstrate that our solutions can achieve remarkable performance and efficient inference speed.
arxiv情報
著者 | Siyu An,Ye Liu,Haoyuan Peng,Di Yin |
発行日 | 2024-01-09 11:49:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google