要約
Self-Supervised Video Hashing (SSVH)は、ラベル付けされていない学習用動画を用いて、効率的なインデックス作成と検索のために動画をハッシュコードに圧縮する。既存のアプローチでは、動画の特徴を学習するためにランダムなフレームサンプリングに依存しており、すべてのフレームを等しく扱っている。その結果、フレーム固有の情報密度や再構成の困難性を無視した、最適とは言えないハッシュコードになってしまう。この限界に対処するために、我々はAutoSSVHと呼ばれる、ハッシュベースのコントラスト学習と敵対的フレームサンプリングを用いた新しいフレームワークを提案する。私たちの敵対的サンプリング戦略は、再構成のために、より豊富な情報を持つ困難なフレームを自動的に識別・選択し、符号化能力を向上させる。さらに、ハッシュ成分投票戦略とポイント・ツー・セット(P2Set)ハッシュベースの対比目的語を導入することで、ハミング空間における複雑な映像間の意味関係を捉え、学習されたハッシュコードの識別性を向上させる。広範な実験により、AutoSSVHは最先端のアプローチと比較して、優れた検索効果と効率を達成することが実証されている。コードはhttps://github.com/EliSpectre/CVPR25-AutoSSVH。
要約(オリジナル)
Self-Supervised Video Hashing (SSVH) compresses videos into hash codes for efficient indexing and retrieval using unlabeled training videos. Existing approaches rely on random frame sampling to learn video features and treat all frames equally. This results in suboptimal hash codes, as it ignores frame-specific information density and reconstruction difficulty. To address this limitation, we propose a new framework, termed AutoSSVH, that employs adversarial frame sampling with hash-based contrastive learning. Our adversarial sampling strategy automatically identifies and selects challenging frames with richer information for reconstruction, enhancing encoding capability. Additionally, we introduce a hash component voting strategy and a point-to-set (P2Set) hash-based contrastive objective, which help capture complex inter-video semantic relationships in the Hamming space and improve the discriminability of learned hash codes. Extensive experiments demonstrate that AutoSSVH achieves superior retrieval efficacy and efficiency compared to state-of-the-art approaches. Code is available at https://github.com/EliSpectre/CVPR25-AutoSSVH.
arxiv情報
著者 | Niu Lian,Jun Li,Jinpeng Wang,Ruisheng Luo,Yaowei Wang,Shu-Tao Xia,Bin Chen |
発行日 | 2025-04-04 16:56:17+00:00 |
arxivサイト | arxiv_id(pdf) |