Video Infringement Detection via Feature Disentanglement and Mutual Information Maximization

要約

セルフメディア時代は、私たちに驚異的な高品質のビデオを提供します。
残念なことに、現在、ビデオの著作権侵害が頻繁に発生しており、ビデオ作成者の利益と熱意が深刻に損なわれています。
したがって、侵害ビデオを特定することは重要な課題です。
現在の最先端の手法は、単純に高次元の混合ビデオ特徴をディープ ニューラル ネットワークにフィードし、有用な表現を抽出するためにネットワークを頼りにする傾向があります。
その単純さにもかかわらず、このパラダイムは元の絡み合った特徴に大きく依存しており、有用なタスク関連のセマンティクスが特徴から抽出されることを保証する制約がありません。
この論文では、2 つの側面から上記の課題に取り組むことを目指します。 (1) 元の高次元特徴を複数のサブ特徴に分解し、その特徴を排他的な低次元コンポーネントに明示的に分解することを提案します。
私たちは、サブ機能が元の機能の重複しないセマンティクスをエンコードし、冗長な情報を削除することを期待しています。
(2) 解かれた部分特徴に加えて、部分特徴を強化するための補助特徴をさらに学習します。
私たちは、ラベルともつれを解いた特徴間の相互情報を理論的に分析し、元の特徴からのタスク関連情報の抽出を最大化する損失に到達しました。
2 つの大規模ベンチマーク データセット (つまり、SVD と VCSL) での広範な実験により、私たちの手法が大規模 SVD データセットで 90.1% TOP-100 mAP を達成し、VCSL ベンチマークでも新しい最先端を確立することが実証されました。
データセット。
私たちのコードとモデルは、コミュニティへの貢献を目的として https://github.com/yyyooooo/DMI/ でリリースされました。

要約(オリジナル)

The self-media era provides us tremendous high quality videos. Unfortunately, frequent video copyright infringements are now seriously damaging the interests and enthusiasm of video creators. Identifying infringing videos is therefore a compelling task. Current state-of-the-art methods tend to simply feed high-dimensional mixed video features into deep neural networks and count on the networks to extract useful representations. Despite its simplicity, this paradigm heavily relies on the original entangled features and lacks constraints guaranteeing that useful task-relevant semantics are extracted from the features. In this paper, we seek to tackle the above challenges from two aspects: (1) We propose to disentangle an original high-dimensional feature into multiple sub-features, explicitly disentangling the feature into exclusive lower-dimensional components. We expect the sub-features to encode non-overlapping semantics of the original feature and remove redundant information. (2) On top of the disentangled sub-features, we further learn an auxiliary feature to enhance the sub-features. We theoretically analyzed the mutual information between the label and the disentangled features, arriving at a loss that maximizes the extraction of task-relevant information from the original feature. Extensive experiments on two large-scale benchmark datasets (i.e., SVD and VCSL) demonstrate that our method achieves 90.1% TOP-100 mAP on the large-scale SVD dataset and also sets the new state-of-the-art on the VCSL benchmark dataset. Our code and model have been released at https://github.com/yyyooooo/DMI/, hoping to contribute to the community.

arxiv情報

著者 Zhenguang Liu,Xinyang Yu,Ruili Wang,Shuai Ye,Zhe Ma,Jianfeng Dong,Sifeng He,Feng Qian,Xiaobo Zhang,Roger Zimmermann,Lei Yang
発行日 2023-09-13 10:53:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク