Extraction and Summarization of Explicit Video Content using Multi-Modal Deep Learning

要約

インターネット上でビデオ共有プラットフォームが増加するにつれ、人間が露骨なコンテンツのデータを管理することが困難になっています。
したがって、ビデオ データをスキャンして露骨なコンテンツを検出する自動パイプラインが時代のニーズになっています。
私たちは、マルチモーダル深層学習を使用して、最初に入力ビデオの露骨なセグメントを抽出し、次にテキストを使用してそのコンテンツを要約し、年齢の適切性と年齢レーティングを決定する新しいパイプラインを提案します。
また、最終的には標準的な指標を使用してパイプラインの有効性を評価します。

要約(オリジナル)

With the increase in video-sharing platforms across the internet, it is difficult for humans to moderate the data for explicit content. Hence, an automated pipeline to scan through video data for explicit content has become the need of the hour. We propose a novel pipeline that uses multi-modal deep learning to first extract the explicit segments of input videos and then summarize their content using text to determine its age appropriateness and age rating. We also evaluate our pipeline’s effectiveness in the end using standard metrics.

arxiv情報

著者 Shaunak Joshi,Raghav Gaggar
発行日 2023-11-21 02:16:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, I.2.10 パーマリンク