要約
この研究では、オーディオおよびビデオソースからのスポーツハイライト(HLS)の自動検出のための新しいディープラーニングベースおよび軽量アプローチを提示します。
HL検出は、スポーツビデオ分析の重要なタスクであり、伝統的に多大な人間の努力を必要としていました。
当社のソリューションは、オーディオメルセプレクトとグレースケールビデオフレームの比較的小さなデータセットでトレーニングされたディープラーニング(DL)モデルを活用し、オーディオとビデオ検出のためにそれぞれ89%と83%の有望な精度率を達成します。
単純なアーキテクチャと組み合わせた小さなデータセットの使用は、迅速かつ費用対効果の高い展開のための方法の実用性を示しています。
さらに、両方のモダリティを組み合わせたアンサンブルモデルは、誤検知と偽陰性に対する堅牢性が改善されたことを示しています。
提案された方法論は、さまざまな種類のスポーツビデオコンテンツにわたる自動HL検出のためのスケーラブルなソリューションを提供し、手動介入の必要性を減らします。
将来の作業は、モデルアーキテクチャの強化と、メディア分析におけるより広範なシーン検出タスクにこのアプローチを拡張することに焦点を当てます。
要約(オリジナル)
This study presents a novel Deep Learning-based and lightweight approach for the automated detection of sports highlights (HLs) from audio and video sources. HL detection is a key task in sports video analysis, traditionally requiring significant human effort. Our solution leverages Deep Learning (DL) models trained on relatively small datasets of audio Mel-spectrograms and grayscale video frames, achieving promising accuracy rates of 89% and 83% for audio and video detection, respectively. The use of small datasets, combined with simple architectures, demonstrates the practicality of our method for fast and cost-effective deployment. Furthermore, an ensemble model combining both modalities shows improved robustness against false positives and false negatives. The proposed methodology offers a scalable solution for automated HL detection across various types of sports video content, reducing the need for manual intervention. Future work will focus on enhancing model architectures and extending this approach to broader scene-detection tasks in media analysis.
arxiv情報
| 著者 | Francesco Della Santa,Morgana Lalli | 
| 発行日 | 2025-01-27 14:50:13+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
