要約
マルチビュー自己教師あり学習 (MSSL) は、一連の入力変換に関する学習不変性に基づいています。
ただし、不変性では、変換関連の情報が表現から部分的または完全に削除されるため、そのような情報を必要とする特定の下流タスクのパフォーマンスに悪影響を及ぼす可能性があります。
我々は、行列構造で組織化された 2D 表現であり、入力データに作用する変換に関して等変である 2D 構造化等変表現 (造語 DUET) を提案します。
DUET 表現は、意味論的な表現力を維持しながら、入力変換に関する情報を維持します。
SimCLR (Chen et al., 2020) (非構造化および不変) および ESSL (Dangovski et al., 2022) (非構造化および等変) と比較して、DUET 表現の構造化および等変の性質により、制御性を維持しながら、再構成誤差が低い制御された生成が可能になります。
SimCLR または ESSL では不可能です。
DUET はまた、いくつかの識別タスクでより高い精度を達成し、転移学習を改善します。
要約(オリジナル)
Multiview Self-Supervised Learning (MSSL) is based on learning invariances with respect to a set of input transformations. However, invariance partially or totally removes transformation-related information from the representations, which might harm performance for specific downstream tasks that require such information. We propose 2D strUctured and EquivarianT representations (coined DUET), which are 2d representations organized in a matrix structure, and equivariant with respect to transformations acting on the input data. DUET representations maintain information about an input transformation, while remaining semantically expressive. Compared to SimCLR (Chen et al., 2020) (unstructured and invariant) and ESSL (Dangovski et al., 2022) (unstructured and equivariant), the structured and equivariant nature of DUET representations enables controlled generation with lower reconstruction error, while controllability is not possible with SimCLR or ESSL. DUET also achieves higher accuracy for several discriminative tasks, and improves transfer learning.
arxiv情報
著者 | Xavier Suau,Federico Danieli,T. Anderson Keller,Arno Blaas,Chen Huang,Jason Ramapuram,Dan Busbridge,Luca Zappella |
発行日 | 2023-06-30 06:57:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google