$BT^2$: Backward-compatible Training with Basis Transformation

要約

現代の検索システムでは、より良い表現モデルに更新する際に、ギャラリー内のすべてのデータの表現を再計算する必要があることが多い。このプロセスはバックフィリングと呼ばれ、ギャラリーが数十億のサンプルを含むことが多い実世界では特にコストがかかる。最近、研究者たちは後方互換学習(BCT)というアイデアを提案した。これは、新しい表現モデルを補助的な損失で学習し、古い表現と後方互換にするものである。この方法では、新しい表現と古い表現を直接比較することができ、原理的にはバックフィルを行う必要がありません。しかし、後方互換性のある表現モデルは、同時に新しいモデル自体の性能を維持することができないという本質的なトレードオフがあることが後続の研究により示されている。この論文では、表現に余分な次元を追加することでこの問題を解決できるという、私たちの「意外でもない」発見を報告しています。しかし、素朴に表現の次元を増やしてもうまくいかないこともわかった。この問題に対処するため、我々は新しい基底変換($BT^2$)を用いた後方互換性のあるトレーニングを提案する。基底変換(BT)とは、基本的に直交変換を適用した学習可能なパラメータセットである。このような変換は、その入力に含まれる元の情報がその出力に保持されるという重要な性質を持つ。本論文では、BTを利用して、必要な次元数だけ追加する方法を示す。BT^2$ が他の最先端手法と比較して優れていることを、様々な設定において経験的に検証する。さらに、モデルアーキテクチャの大幅な変更(CNNからTransformers)、モダリティの変更、さらには深層学習モデルの進化を模倣したモデルアーキテクチャの一連の更新など、他の挑戦的かつより実用的な設定に$BT^2$を拡張する。

要約(オリジナル)

Modern retrieval system often requires recomputing the representation of every piece of data in the gallery when updating to a better representation model. This process is known as backfilling and can be especially costly in the real world where the gallery often contains billions of samples. Recently, researchers have proposed the idea of Backward Compatible Training (BCT) where the new representation model can be trained with an auxiliary loss to make it backward compatible with the old representation. In this way, the new representation can be directly compared with the old representation, in principle avoiding the need for any backfilling. However, followup work shows that there is an inherent tradeoff where a backward compatible representation model cannot simultaneously maintain the performance of the new model itself. This paper reports our “not-so-surprising” finding that adding extra dimensions to the representation can help here. However, we also found that naively increasing the dimension of the representation did not work. To deal with this, we propose Backward-compatible Training with a novel Basis Transformation ($BT^2$). A basis transformation (BT) is basically a learnable set of parameters that applies an orthonormal transformation. Such a transformation possesses an important property whereby the original information contained in its input is retained in its output. We show in this paper how a BT can be utilized to add only the necessary amount of additional dimensions. We empirically verify the advantage of $BT^2$ over other state-of-the-art methods in a wide range of settings. We then further extend $BT^2$ to other challenging yet more practical settings, including significant change in model architecture (CNN to Transformers), modality change, and even a series of updates in the model architecture mimicking the evolution of deep learning models.

arxiv情報

著者 Yifei Zhou,Zilu Li,Abhinav Shrivastava,Hengshuang Zhao,Antonio Torralba,Taipeng Tian,Ser-Nam Lim
発行日 2022-11-08 04:00:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク