要約
自己教師あり表現学習では、多くの場合、データ拡張を使用して、データの「スタイル」属性にある程度の不変性をもたらします。
ただし、下流のタスクはトレーニング時に一般に未知であるため、データのどの属性が実際に「スタイル」であり、安全に破棄できるかを先験的に推定することは困難です。
これに対処するために、現在のアプローチでは、ImageNet オブジェクト分類などの特定のタスクに合わせて不変度を調整することによって、スタイル情報を保持しようとしています。
ただし、これまでの研究では、このようなタスク固有のチューニングは、破棄されたスタイルに依存する他のタスクのパフォーマンスの大幅な低下につながる可能性があることを示しています。
これに対処するために、スタイルの特徴を破棄するのではなく、解きほぐすことを目指す、より原則的なアプローチを導入します。
重要なアイデアは、複数のスタイル埋め込みスペースを追加することです。(i) それぞれは、1 つを除くすべての拡張に対して不変です。
(ii) 結合エントロピーが最大化される。
因果的潜在変数モデルの観点から構造化データ拡張手順を形式化し、内容変数と個々のスタイル変数の両方の識別可能性を証明します。
私たちは、合成データと現実世界のデータの両方に対するアプローチの利点を経験的に実証しています。
要約(オリジナル)
Self-supervised representation learning often uses data augmentations to induce some invariance to ‘style’ attributes of the data. However, with downstream tasks generally unknown at training time, it is difficult to deduce a priori which attributes of the data are indeed ‘style’ and can be safely discarded. To deal with this, current approaches try to retain some style information by tuning the degree of invariance to some particular task, such as ImageNet object classification. However, prior work has shown that such task-specific tuning can lead to significant performance degradation on other tasks that rely on the discarded style. To address this, we introduce a more principled approach that seeks to disentangle style features rather than discard them. The key idea is to add multiple style embedding spaces where: (i) each is invariant to all-but-one augmentation; and (ii) joint entropy is maximized. We formalize our structured data-augmentation procedure from a causal latent-variable-model perspective, and prove identifiability of both content and individual style variables. We empirically demonstrate the benefits of our approach on both synthetic and real-world data.
arxiv情報
著者 | Cian Eastwood,Julius von Kügelgen,Linus Ericsson,Diane Bouchacourt,Pascal Vincent,Bernhard Schölkopf,Mark Ibrahim |
発行日 | 2024-08-20 15:33:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google