要約
人間によるマルチメディア データの注釈付けには時間とコストがかかり、セマンティック メタデータの信頼性の高い自動生成は大きな課題です。
自動生成されたビデオキャプションからセマンティックメタデータを抽出するフレームワークを提案します。
メタデータとして、エンティティ、エンティティのプロパティ、エンティティ間の関係、およびビデオ カテゴリを考慮します。
マスクト トランスフォーマー (MT) と並列デコード (PVDC) を備えた 2 つの最先端の高密度ビデオ キャプション モデルを採用して、ActivityNet Captions データセットのビデオのキャプションを生成します。
私たちの実験では、生成されたキャプションからエンティティ、そのプロパティ、エンティティ間の関係、およびビデオ カテゴリを抽出できることが示されました。
抽出された情報の品質は、主にビデオ内のイベントの位置特定の品質とイベント キャプション生成のパフォーマンスに影響されることがわかります。
要約(オリジナル)
Annotation of multimedia data by humans is time-consuming and costly, while reliable automatic generation of semantic metadata is a major challenge. We propose a framework to extract semantic metadata from automatically generated video captions. As metadata, we consider entities, the entities’ properties, relations between entities, and the video category. We employ two state-of-the-art dense video captioning models with masked transformer (MT) and parallel decoding (PVDC) to generate captions for videos of the ActivityNet Captions dataset. Our experiments show that it is possible to extract entities, their properties, relations between entities, and the video category from the generated captions. We observe that the quality of the extracted information is mainly influenced by the quality of the event localization in the video as well as the performance of the event caption generation.
arxiv情報
著者 | Johannes Scherer,Ansgar Scherp,Deepayan Bhowmik |
発行日 | 2023-08-15 21:19:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google