A Feature-space Multimodal Data Augmentation Technique for Text-video Retrieval

要約

ソーシャルメディアやユーザー作成コンテンツプラットフォームには、毎時間、膨大な量の映像コンテンツが投稿されています。自然言語によるクエリによって関連する動画を検索するために、テキスト-動画検索法がここ数年注目されている。データ拡張技術は、画像の色空間や幾何学的変換などのセマンティクス保存技術を適用して新しい学習サンプルを作成することにより、未見のテスト例に対する性能を向上させるために導入されたものである。しかし、これらの技術は通常生データに対して適用されるため、より多くのリソースを必要とするソリューションとなり、また、映画やテレビシリーズからのクリップの著作権問題など、必ずしもそうではない生データの共有可能性を必要とする。この欠点に対処するため、我々は特徴空間で動作し、意味的に類似したサンプルを混合することによって新しいビデオとキャプションを作成するマルチモーダルデータ拡張技術を提案する。我々は、大規模な公共データセットEPIC-Kitchens-100で本ソリューションを実験し、ベースライン手法よりも大幅に改善し、最先端の性能を向上させ、同時に複数のアブレーション研究を行う。我々はコードと事前学習済みモデルをGithubで公開している(https://github.com/aranciokov/FSMMDA_VideoRetrieval)。

要約(オリジナル)

Every hour, huge amounts of visual contents are posted on social media and user-generated content platforms. To find relevant videos by means of a natural language query, text-video retrieval methods have received increased attention over the past few years. Data augmentation techniques were introduced to increase the performance on unseen test examples by creating new training samples with the application of semantics-preserving techniques, such as color space or geometric transformations on images. Yet, these techniques are usually applied on raw data, leading to more resource-demanding solutions and also requiring the shareability of the raw data, which may not always be true, e.g. copyright issues with clips from movies or TV series. To address this shortcoming, we propose a multimodal data augmentation technique which works in the feature space and creates new videos and captions by mixing semantically similar samples. We experiment our solution on a large scale public dataset, EPIC-Kitchens-100, and achieve considerable improvements over a baseline method, improved state-of-the-art performance, while at the same time performing multiple ablation studies. We release code and pretrained models on Github at https://github.com/aranciokov/FSMMDA_VideoRetrieval.

arxiv情報

著者 Alex Falcon,Giuseppe Serra,Oswald Lanz
発行日 2022-08-03 14:05:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク