AutoShot: A Short Video Dataset and State-of-the-Art Shot Boundary Detection

要約

タイトル:AutoShot:短いビデオデータセットと最新のショット境界検出技術

要約:

– 短いビデオは、急速に普及し、新しいソーシャルメディアのトレンドを支配しています。
– 現在の短いビデオプラットフォーム(Kuaishou(Kwai)、TikTok、Instagram Reels、YouTube Shortsなど)は、コンテンツの消費と作成の方法を変えました。
– ビデオコンテンツの作成と理解にあたり、ショット境界検出(SBD)はさまざまなシナリオで最も重要なコンポーネントの1つです。
– 本研究では、2,716個の高品質なショット境界アノテーションを含む853の完全な短いビデオと11,606のショットアノテーションから成る新しい公共のショートビデオショット境界検出データセットであるSHOTを公開しました。
– この新しいデータウェルスを活用し、さまざまな高度な3D ConvNetsとTransformersをカプセル化したサーチスペースでニューラルアーキテクチャの検索を行い、ビデオSBDのためにモデル設計を最適化することを提案します。
– AutoShotという提案手法は、新しく構築されたSHOTデータセットで派生され、評価されたとき、TransNetV2を4.2%上回る高いF1スコアを達成し、以前の最新技術を上回りました。
– さらに、AutoShotアーキテクチャの一般的な有効性を検証するために、別の3つの公共データセット、ClipShots、BBC、RAIで直接評価しました。
– AutoShotのF1スコアは、それぞれ1.1%、0.9%、1.2%上回り、以前の最新技術を上回りました。
– SHOTデータセットとコードは、https://github.com/wentaozhu/AutoShot.gitで見つけることができます。

要約(オリジナル)

The short-form videos have explosive popularity and have dominated the new social media trends. Prevailing short-video platforms,~\textit{e.g.}, Kuaishou (Kwai), TikTok, Instagram Reels, and YouTube Shorts, have changed the way we consume and create content. For video content creation and understanding, the shot boundary detection (SBD) is one of the most essential components in various scenarios. In this work, we release a new public Short video sHot bOundary deTection dataset, named SHOT, consisting of 853 complete short videos and 11,606 shot annotations, with 2,716 high quality shot boundary annotations in 200 test videos. Leveraging this new data wealth, we propose to optimize the model design for video SBD, by conducting neural architecture search in a search space encapsulating various advanced 3D ConvNets and Transformers. Our proposed approach, named AutoShot, achieves higher F1 scores than previous state-of-the-art approaches, e.g., outperforming TransNetV2 by 4.2%, when being derived and evaluated on our newly constructed SHOT dataset. Moreover, to validate the generalizability of the AutoShot architecture, we directly evaluate it on another three public datasets: ClipShots, BBC and RAI, and the F1 scores of AutoShot outperform previous state-of-the-art approaches by 1.1%, 0.9% and 1.2%, respectively. The SHOT dataset and code can be found in https://github.com/wentaozhu/AutoShot.git .

arxiv情報

著者 Wentao Zhu,Yufang Huang,Xiufeng Xie,Wenxian Liu,Jincan Deng,Debing Zhang,Zhangyang Wang,Ji Liu
発行日 2023-04-12 19:01:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.NE パーマリンク