Randomized Quantization: A Generic Augmentation for Data Agnostic Self-supervised Learning

要約

自己教師あり表現学習は、データの一部を保留し、ネットワークに残りの部分からデータを予測するパラダイムに従います。
多くの技術の中でも、データ拡張は情報ギャップを生み出す中核となります。
この目的に向けて、マスキングは、画像の空間的、音声の時間的、言語の構文などの連続的な次元に沿ってコンテンツを差し控える、汎用的で強力なツールとして登場しました。
この論文では、精度の冗長性を利用して汎用データを拡張するための直交チャネル次元を検討します。
各チャネルのデータは、ランダムにサンプリングされた量子化ビン内でランダムにサンプリングされた量子化値を使用して、不均一量子化器によって量子化されます。
別の観点から見ると、量子化は各ビン内の情報を削除しますが、ビン間で情報は保持するため、チャネルごとのマスキングに似ています。
私たちのアプローチは、既存の汎用データ拡張手法を大幅に上回り、モダリティ固有の拡張に対して同等のパフォーマンスを示します。
ビジョン、オーディオ、3D 点群、およびさまざまなデータ モダリティで構成される DABS ベンチマークに対するアプローチを総合的に評価します。
コードは https://github.com/microsoft/random_quantize で入手できます。

要約(オリジナル)

Self-supervised representation learning follows a paradigm of withholding some part of the data and tasking the network to predict it from the remaining part. Among many techniques, data augmentation lies at the core for creating the information gap. Towards this end, masking has emerged as a generic and powerful tool where content is withheld along the sequential dimension, e.g., spatial in images, temporal in audio, and syntactic in language. In this paper, we explore the orthogonal channel dimension for generic data augmentation by exploiting precision redundancy. The data for each channel is quantized through a non-uniform quantizer, with the quantized value sampled randomly within randomly sampled quantization bins. From another perspective, quantization is analogous to channel-wise masking, as it removes the information within each bin, but preserves the information across bins. Our approach significantly surpasses existing generic data augmentation methods, while showing on par performance against modality-specific augmentations. We comprehensively evaluate our approach on vision, audio, 3D point clouds, as well as the DABS benchmark which is comprised of various data modalities. The code is available at https: //github.com/microsoft/random_quantize.

arxiv情報

著者 Huimin Wu,Chenyang Lei,Xiao Sun,Peng-Shuai Wang,Qifeng Chen,Kwang-Ting Cheng,Stephen Lin,Zhirong Wu
発行日 2023-08-23 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク