Lecture Video Visual Objects (LVVO) Dataset: A Benchmark for Visual Object Detection in Educational Videos

要約

教育ビデオコンテンツでの視覚オブジェクト検出のための新しいベンチマークである講義ビデオVisual Objects(LVVO)データセットを紹介します。
データセットは、生物学、コンピューターサイエンス、地球科学にまたがる245の講義ビデオから抽出された4,000フレームで構成されています。
LVVO_1Kと呼ばれる1,000フレームのサブセットには、テーブル、チャートグラフ、写真イメージ、視覚イロストの4つの視覚カテゴリの境界ボックスが手動で注釈が付けられています。
各フレームは2つのアノテーターによって独立してラベル付けされ、アノテーター間F1スコアが83.41%になり、強力な一致が示されています。
高品質のコンセンサス注釈を確保するために、3番目の専門家は、紛争解決プロセスを通じて意見の不一致のすべてのケースをレビューおよび解決しました。
データセットを拡張するために、残りの3,000フレームを自動的に注釈してLVVO_3Kを形成するために、半監視されたアプローチを採用しました。
完全なデータセットは、教育ビデオで視覚的なコンテンツ検出のための監視されたおよび半監視された方法の両方を開発および評価するための貴重なリソースを提供します。
LVVOデータセットは、このドメインでのさらなる研究をサポートするために公開されています。

要約(オリジナル)

We introduce the Lecture Video Visual Objects (LVVO) dataset, a new benchmark for visual object detection in educational video content. The dataset consists of 4,000 frames extracted from 245 lecture videos spanning biology, computer science, and geosciences. A subset of 1,000 frames, referred to as LVVO_1k, has been manually annotated with bounding boxes for four visual categories: Table, Chart-Graph, Photographic-image, and Visual-illustration. Each frame was labeled independently by two annotators, resulting in an inter-annotator F1 score of 83.41%, indicating strong agreement. To ensure high-quality consensus annotations, a third expert reviewed and resolved all cases of disagreement through a conflict resolution process. To expand the dataset, a semi-supervised approach was employed to automatically annotate the remaining 3,000 frames, forming LVVO_3k. The complete dataset offers a valuable resource for developing and evaluating both supervised and semi-supervised methods for visual content detection in educational videos. The LVVO dataset is publicly available to support further research in this domain.

arxiv情報

著者 Dipayan Biswas,Shishir Shah,Jaspal Subhlok
発行日 2025-06-16 16:18:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク