Learning Decorrelated Representations Efficiently Using Fast Fourier Transform

要約

Barlow TwinsとVICRegは自己教師付き表現学習モデルであり、正則化器を用いて特徴の相関をとる。これらの正則化は相互相関行列や共分散行列の個々の要素で定義されるため、$n$個のサンプルの$d$次元射影表現に対して損失を計算すると$O(n d^2)$ 時間がかかる。本論文では、高速フーリエ変換により$O(n dlog d)$時間で計算できる緩和版相関正則化器を提案する。また、緩和によって生じる望ましくないローカルミニマムを緩和する安価なトリックを提案する。提案する正則化器を用いて表現を学習したモデルは、下流タスクにおいて既存のモデルと同等の精度を示す一方、$d$が大きい場合には、より少ないメモリでより高速に学習を行うことができる。

要約(オリジナル)

Barlow Twins and VICReg are self-supervised representation learning models that use regularizers to decorrelate features. Although they work as well as conventional representation learning models, their training can be computationally demanding if the dimension of projected representations is high; as these regularizers are defined in terms of individual elements of a cross-correlation or covariance matrix, computing the loss for $d$-dimensional projected representations of $n$ samples takes $O(n d^2)$ time. In this paper, we propose a relaxed version of decorrelating regularizers that can be computed in $O(n d\log d)$ time by the fast Fourier transform. We also propose an inexpensive trick to mitigate the undesirable local minima that develop with the relaxation. Models learning representations using the proposed regularizers show comparable accuracy to existing models in downstream tasks, whereas the training requires less memory and is faster when $d$ is large.

arxiv情報

著者 Yutaro Shigeto,Masashi Shimbo,Yuya Yoshikawa,Akikazu Takeuchi
発行日 2023-01-04 12:38:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク