Rethinking the Architecture Design for Efficient Generic Event Boundary Detection

要約

汎用イベント境界検出 (GEBD) は、ビデオを意味のある時間チャンクに一貫してセグメント化するという人間の視覚認知行動からインスピレーションを得たもので、ビデオ編集などのさまざまなアプリケーションで有用です。
このペーパーでは、SOTA GEBD モデルがモデルの複雑さよりも最終的なパフォーマンスを優先することが多く、その結果、推論速度が低下し、現実世界のシナリオでの効率的なデプロイメントが妨げられることを実証します。
私たちは、GEBD モデルのアーキテクチャを実験的に再調査し、いくつかの驚くべき発見を明らかにすることで、この課題への対処に貢献します。
まず、簡潔な GEBD ベースライン モデルが、洗練された設計を必要とせずに、すでに有望なパフォーマンスを達成していることを明らかにします。
第 2 に、GEBD モデルで広く適用されているイメージ ドメイン バックボーンには、アーキテクチャの冗長性が多く含まれている可能性があり、効率を高めるために各コンポーネントを徐々に「最新化」する動機となることがわかりました。
第三に、時空間の貪欲な方法で時空間学習を実行する画像領域バックボーンを使用する GEBD モデルは、GEBD にとって非効率な悪役である可能性がある注意散漫の問題に悩まされる可能性があることを示します。
ビデオ ドメイン バックボーンを使用して時空間モデリングを共同で実行することは、この問題に対する効果的な解決策です。
私たちの探索の結果、EfficientGEBD という名前の GEBD モデル ファミリが誕生しました。これは、同じバックボーンの下で、以前の SOTA メソッドよりもパフォーマンスが最大 1.7% 向上し、速度が 280% 向上し、大幅に優れています。
私たちの研究は、特にリソースを意識したアプリケーションにおいて、モデルの複雑さを考慮して最新の GEBD 手法を設計することをコミュニティに促しています。
コードは \url{https://github.com/Ziwei-Zheng/EfficientGEBD} で入手できます。

要約(オリジナル)

Generic event boundary detection (GEBD), inspired by human visual cognitive behaviors of consistently segmenting videos into meaningful temporal chunks, finds utility in various applications such as video editing and. In this paper, we demonstrate that SOTA GEBD models often prioritize final performance over model complexity, resulting in low inference speed and hindering efficient deployment in real-world scenarios. We contribute to addressing this challenge by experimentally reexamining the architecture of GEBD models and uncovering several surprising findings. Firstly, we reveal that a concise GEBD baseline model already achieves promising performance without any sophisticated design. Secondly, we find that the widely applied image-domain backbones in GEBD models can contain plenty of architecture redundancy, motivating us to gradually “modernize” each component to enhance efficiency. Thirdly, we show that the GEBD models using image-domain backbones conducting the spatiotemporal learning in a spatial-then-temporal greedy manner can suffer from a distraction issue, which might be the inefficient villain for GEBD. Using a video-domain backbone to jointly conduct spatiotemporal modeling is an effective solution for this issue. The outcome of our exploration is a family of GEBD models, named EfficientGEBD, significantly outperforms the previous SOTA methods by up to 1.7\% performance gain and 280\% speedup under the same backbone. Our research prompts the community to design modern GEBD methods with the consideration of model complexity, particularly in resource-aware applications. The code is available at \url{https://github.com/Ziwei-Zheng/EfficientGEBD}.

arxiv情報

著者 Ziwei Zheng,Zechuan Zhang,Yulin Wang,Shiji Song,Gao Huang,Le Yang
発行日 2024-07-17 14:49:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク