Your Image is My Video: Reshaping the Receptive Field via Image-To-Video Differentiable AutoAugmentation and Fusion

要約

ディープラーニング研究の状況は、データの真の可能性を活用するための革新的な戦略に向かって進んでいます。
従来、モデル アーキテクチャのスケーリングに重点が置かれてきたため、大規模で複雑なニューラル ネットワークが生成され、限られた計算リソースでトレーニングすることが困難になる場合がありました。
ただし、モデルのサイズとは関係なく、データの品質 (つまり、量と変動性) は依然としてモデルの一般化に影響を与える主要な要素です。
この研究では、画像分類とセマンティック セグメンテーションのタスクに自動データ拡張を使用して、利用可能なデータを活用する新しい手法を提案します。
ビデオとして処理できる画像のバリエーションを生成するための、最初の微分可能拡張検索法 (DAS) を導入します。
以前のアプローチと比較して、DAS は非常に高速かつ柔軟であり、GPU 1 日未満で非常に大規模な検索スペースでの検索を可能にします。
私たちの直観では、DAS によって提供される時間次元での受容野の増加は、空間受容野にも利益をもたらす可能性があると考えています。
より具体的には、DAS を活用して、タスクに応じた変換を選択することで空間受容野の再形成をガイドします。
その結果、標準的な拡張代替手段と比較して、さまざまな軽量ビデオ バックボーン上で DAS をプラグインする際に、ImageNet、Cifar10、Cifar100、Tiny-ImageNet、Pascal-VOC-2012、および CityScapes データセットの精度が向上しました。

要約(オリジナル)

The landscape of deep learning research is moving towards innovative strategies to harness the true potential of data. Traditionally, emphasis has been on scaling model architectures, resulting in large and complex neural networks, which can be difficult to train with limited computational resources. However, independently of the model size, data quality (i.e. amount and variability) is still a major factor that affects model generalization. In this work, we propose a novel technique to exploit available data through the use of automatic data augmentation for the tasks of image classification and semantic segmentation. We introduce the first Differentiable Augmentation Search method (DAS) to generate variations of images that can be processed as videos. Compared to previous approaches, DAS is extremely fast and flexible, allowing the search on very large search spaces in less than a GPU day. Our intuition is that the increased receptive field in the temporal dimension provided by DAS could lead to benefits also to the spatial receptive field. More specifically, we leverage DAS to guide the reshaping of the spatial receptive field by selecting task-dependant transformations. As a result, compared to standard augmentation alternatives, we improve in terms of accuracy on ImageNet, Cifar10, Cifar100, Tiny-ImageNet, Pascal-VOC-2012 and CityScapes datasets when plugging-in our DAS over different light-weight video backbones.

arxiv情報

著者 Sofia Casarin,Cynthia I. Ugwu,Sergio Escalera,Oswald Lanz
発行日 2024-03-22 13:27:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク