DnS: Distill-and-Select for Efficient and Accurate Video Indexing and Retrieval

要約

本論文では、大規模データセットにおける高性能かつ計算効率の高いコンテンツベース映像検索の問題に取り組む。現在の手法では、(i)時空間表現と類似度計算を用いた細粒度のアプローチ(高い計算コストで高い性能を達成)、(ii)時空間構造が失われたグローバルベクトルでビデオを表現/インデックス付けする粗粒度のアプローチ(低い性能と低い計算コスト)のいずれかを提案している。本研究では、Distill-and-Select (DnS)と呼ばれる知識抽出フレームワークを提案する。このフレームワークは、性能の良い細粒度の教師ネットワークから出発して、a)検索性能と計算効率のトレードオフが異なる学生ネットワーク、b)テスト時に高い検索性能と高い計算効率の両方を維持しながらサンプルを適切な学生に迅速に誘導する選択者ネットワークを学習する。我々は、異なるアーキテクチャを持つ複数の学生を訓練し、性能と効率、すなわち速度とストレージ要件の異なるトレードオフに到達する。これには、バイナリ表現を用いてビデオを保存/インデックス化する細かな学生も含まれる。重要なのは、提案されたスキームにより、大規模でラベルのないデータセットにおけるKnowledge Distillationが可能になることである — これは優秀な学生につながるものである。我々は、3つの異なるビデオ検索タスクに関する5つの公開データセットでDnSを評価し、a)我々の学生がいくつかのケースで最先端の性能を達成すること、b)DnSフレームワークは検索性能、計算速度、ストレージスペース間の優れたトレードオフを提供することを実証した。具体的な構成では、提案手法は教師と同等のmAPを達成しながらも、20倍速く、240倍少ない記憶領域を必要とする。収集したデータセットと実装は一般に公開されています: https://github.com/mever-team/distill-and-select.

要約(オリジナル)

In this paper, we address the problem of high performance and computationally efficient content-based video retrieval in large-scale datasets. Current methods typically propose either: (i) fine-grained approaches employing spatio-temporal representations and similarity calculations, achieving high performance at a high computational cost or (ii) coarse-grained approaches representing/indexing videos as global vectors, where the spatio-temporal structure is lost, providing low performance but also having low computational cost. In this work, we propose a Knowledge Distillation framework, called Distill-and-Select (DnS), that starting from a well-performing fine-grained Teacher Network learns: a) Student Networks at different retrieval performance and computational efficiency trade-offs and b) a Selector Network that at test time rapidly directs samples to the appropriate student to maintain both high retrieval performance and high computational efficiency. We train several students with different architectures and arrive at different trade-offs of performance and efficiency, i.e., speed and storage requirements, including fine-grained students that store/index videos using binary representations. Importantly, the proposed scheme allows Knowledge Distillation in large, unlabelled datasets — this leads to good students. We evaluate DnS on five public datasets on three different video retrieval tasks and demonstrate a) that our students achieve state-of-the-art performance in several cases and b) that the DnS framework provides an excellent trade-off between retrieval performance, computational speed, and storage space. In specific configurations, the proposed method achieves similar mAP with the teacher but is 20 times faster and requires 240 times less storage space. The collected dataset and implementation are publicly available: https://github.com/mever-team/distill-and-select.

arxiv情報

著者 Giorgos Kordopatis-Zilos,Christos Tzelepis,Symeon Papadopoulos,Ioannis Kompatsiaris,Ioannis Patras
発行日 2022-08-05 11:53:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.IR, cs.MM パーマリンク