要約
短編映像の爆発的な普及は、人々の交流のあり方を大きく変え、日々の共有や最新情報の入手に新たな潮流を生み出しています。このような豊富な映像資源は、カメラ付き携帯端末の普及によってもたらされたものであるが、一方で、多くの映像クリエイターによる貴重な編集作業と無関係ではあり得ない。本論文では、BGMから適切なトランジションタイムスタンプを推薦するオーディオビートマッチング(ABM)という、新規かつ実用的な問題を検討するものである。この技術により、映像編集の手間を省き、映像制作者のエネルギーを節約し、映像コンテンツの創作に集中することができます。本論文では、ABM問題およびその評価プロトコルを正式に定義する。また、この新しい研究の方向性を促進するために、大規模なオーディオデータセット、すなわち、87k以上の細かく注釈されたBGMを含むAutoMatchを提示する。さらに、次の研究のための強固な基礎を築くために、この困難な課題に取り組むBeatXと呼ばれる新しいモデルを提案する。同時に、ラベルスコープという概念を提示し、データの不均衡の問題を解消し、学習手順中にグランドトゥルースの適応的な重みをワンストップで割り当てることを創造しています。多くのショートビデオプラットフォームは長い間繁栄してきましたが、このシナリオに関する関連研究は十分ではありません。私たちの知る限り、AutoMatchはオーディオビートマッチング問題に取り組む最初の大規模データセットです。私たちは、公開されたデータセットと私たちの競争力のあるベースラインが、この研究分野へのさらなる注目を促すことを期待しています。データセットとコードは一般に公開される予定です。
要約(オリジナル)
The explosion of short videos has dramatically reshaped the manners people socialize, yielding a new trend for daily sharing and access to the latest information. These rich video resources, on the one hand, benefited from the popularization of portable devices with cameras, but on the other, they can not be independent of the valuable editing work contributed by numerous video creators. In this paper, we investigate a novel and practical problem, namely audio beat matching (ABM), which aims to recommend the proper transition time stamps based on the background music. This technique helps to ease the labor-intensive work during video editing, saving energy for creators so that they can focus more on the creativity of video content. We formally define the ABM problem and its evaluation protocol. Meanwhile, a large-scale audio dataset, i.e., the AutoMatch with over 87k finely annotated background music, is presented to facilitate this newly opened research direction. To further lay solid foundations for the following study, we also propose a novel model termed BeatX to tackle this challenging task. Alongside, we creatively present the concept of label scope, which eliminates the data imbalance issues and assigns adaptive weights for the ground truth during the training procedure in one stop. Though plentiful short video platforms have flourished for a long time, the relevant research concerning this scenario is not sufficient, and to the best of our knowledge, AutoMatch is the first large-scale dataset to tackle the audio beat matching problem. We hope the released dataset and our competitive baseline can encourage more attention to this line of research. The dataset and codes will be made publicly available.
arxiv情報
著者 | Sen Pei,Jingya Yu,Qi Chen,Wozhou He |
発行日 | 2023-03-03 12:30:09+00:00 |
arxivサイト | arxiv_id(pdf) |