Learning to Transform for Generalizable Instance-wise Invariance

要約

コンピューター ビジョンの研究は、自然データに見られる空間変換に対して堅牢なシステムを構築することを長い間目指してきました。
従来、これはデータ拡張またはアーキテクチャへの不変性のハードコーディングを使用して行われていました。
ただし、不変性が多すぎたり少なすぎたりすると問題が生じる可能性があり、適切な量は先験的に不明であり、インスタンスに依存します。
理想的には、適切な不変性がデータから学習され、テスト時に推測されます。
不変性を予測問題として扱います。
任意の画像を指定して、正規化フローを使用して変換全体の分布を予測し、それらの予測を平均します。
この分布はインスタンスにのみ依存するため、インスタンスを分類する前にインスタンスを調整し、クラス間の不変性を一般化できます。
同じ分布を使用して、分布外のポーズに適応することもできます。
この正規化フローはエンドツーエンドでトレーニングされ、Augerino や InstaAug よりもはるかに広範囲の変換を学習できます。
データ拡張として使用すると、私たちのメソッドは CIFAR 10、CIFAR10-LT、TinyImageNet で精度と堅牢性が向上します。

要約(オリジナル)

Computer vision research has long aimed to build systems that are robust to spatial transformations found in natural data. Traditionally, this is done using data augmentation or hard-coding invariances into the architecture. However, too much or too little invariance can hurt, and the correct amount is unknown a priori and dependent on the instance. Ideally, the appropriate invariance would be learned from data and inferred at test-time. We treat invariance as a prediction problem. Given any image, we use a normalizing flow to predict a distribution over transformations and average the predictions over them. Since this distribution only depends on the instance, we can align instances before classifying them and generalize invariance across classes. The same distribution can also be used to adapt to out-of-distribution poses. This normalizing flow is trained end-to-end and can learn a much larger range of transformations than Augerino and InstaAug. When used as data augmentation, our method shows accuracy and robustness gains on CIFAR 10, CIFAR10-LT, and TinyImageNet.

arxiv情報

著者 Utkarsh Singhal,Carlos Esteves,Ameesh Makadia,Stella X. Yu
発行日 2023-09-28 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク