要約
機械学習 (ML) を現実世界に適用するには、データ内の誤った相関ではなく、十分に一般化された特徴に基づいてモデルが予測を行うことが不可欠です。
このような偽の相関関係 (ショートカットとも呼ばれます) を特定することは、困難な問題ですが、これまでほとんど対処されていません。
この研究では、変分オートエンコーダー (VAE) を活用して画像および音声データセット内のショートカットを検出する新しいアプローチを紹介します。
VAE の潜在空間内の特徴のもつれを解くことで、データセット内の特徴とターゲットの相関関係を発見し、ML ショートカットについてそれらを半自動的に評価することができます。
私たちは、いくつかの実世界のデータセットに対するこの手法の適用性を実証し、これまで発見されていないショートカットを特定します。
要約(オリジナル)
For real-world applications of machine learning (ML), it is essential that models make predictions based on well-generalizing features rather than spurious correlations in the data. The identification of such spurious correlations, also known as shortcuts, is a challenging problem and has so far been scarcely addressed. In this work, we present a novel approach to detect shortcuts in image and audio datasets by leveraging variational autoencoders (VAEs). The disentanglement of features in the latent space of VAEs allows us to discover feature-target correlations in datasets and semi-automatically evaluate them for ML shortcuts. We demonstrate the applicability of our method on several real-world datasets and identify shortcuts that have not been discovered before.
arxiv情報
著者 | Nicolas M. Müller,Simon Roschmann,Shahbaz Khan,Philip Sperl,Konstantin Böttinger |
発行日 | 2023-07-21 09:15:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google