Latent space configuration for improved generalization in supervised autoencoder neural networks

要約

オートエンコーダー (AE) は、入力を低次元の潜在空間 (LS) に投影することでデータを圧縮する、シンプルでありながら強力なクラスのニューラル ネットワークです。
LS はトレーニング中の損失関数の最小化に従って形成されますが、その特性とトポロジーは直接制御されません。
この論文では、AE LS の特性に焦点を当て、LS 構成と呼ばれる、所望のトポロジーを持つ LS を取得するための 2 つの方法を提案します。
提案手法には、LS 内で直接作用する幾何損失項を用いた損失構成とエンコーダ構成が含まれます。
前者では、教師あり AE (SAE) の LS クラスターの位置と形状を定義することで、所望の構成の LS を確実に取得できることを示します。
LS 構成を知ることで、デコーダーや分類器を使用せずに、LS で類似性尺度を定義し、ラベルを予測したり、複数の入力の類似性を推定したりすることができます。
また、これがより安定した解釈可能なトレーニングにつながることも示します。
提案された方法を使用して衣服のテクスチャ分類用にトレーニングされた SAE は、微調整することなく、LIP、Market1501、および WildTrack データセットからの未確認のデータを適切に一般化し、未確認のクラスの類似性を評価することもできることを示します。
さらに、データセット間検索と、言語モデルを使用しないテキスト クエリを使用したテキスト ベースの検索による、事前構成された LS 類似性推定の利点を説明します。

要約(オリジナル)

Autoencoders (AE) are simple yet powerful class of neural networks that compress data by projecting input into low-dimensional latent space (LS). Whereas LS is formed according to the loss function minimization during training, its properties and topology are not controlled directly. In this paper we focus on AE LS properties and propose two methods for obtaining LS with desired topology, called LS configuration. The proposed methods include loss configuration using a geometric loss term that acts directly in LS, and encoder configuration. We show that the former allows to reliably obtain LS with desired configuration by defining the positions and shapes of LS clusters for supervised AE (SAE). Knowing LS configuration allows to define similarity measure in LS to predict labels or estimate similarity for multiple inputs without using decoders or classifiers. We also show that this leads to more stable and interpretable training. We show that SAE trained for clothes texture classification using the proposed method generalizes well to unseen data from LIP, Market1501, and WildTrack datasets without fine-tuning, and even allows to evaluate similarity for unseen classes. We further illustrate the advantages of pre-configured LS similarity estimation with cross-dataset searches and text-based search using a text query without language models.

arxiv情報

著者 Nikita Gabdullin
発行日 2024-02-13 13:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62H30, 62H35, 68T45, cs.CV, I.4 パーマリンク