要約
新規性の検出は、既知のサンプルの分布とは何らかの形で異なるサンプルを見つけることを目的としています。
しかし、すべての変化が同じように生まれるわけではありません。
データは多数の分布の変化を受ける可能性があるため、一部の種類の関連する変化のみを検出したい場合があります。
配布外の一般化における作業と同様に、タスクに関連する意味論的または内容の変更と、無関係なスタイルの変更に分割する形式化を使用することを提案します。
この形式化の中で、堅牢な新規性の検出を、スタイル分布の変化に対して堅牢でありながら、セマンティックな変更を見つけるタスクとして定義します。
事前トレーニングされた大規模モデル表現を活用して、環境に偏った特徴を除去することに重点を置いた新しい手法である Stylist を紹介します。
まず、環境間の特徴分布の距離に基づいて特徴ごとのスコアを計算します。
次に、私たちの選択により、偽の相関の原因となる特徴が削除され、新規性の検出パフォーマンスが向上することを示します。
評価のために、ドメイン汎化データセットをタスクに適応させ、メソッドの動作を分析します。
さらに、偽の相関度を制御できる大規模な合成データセットを構築しました。
私たちの選択メカニズムが、文体と内容の両方の変化を含む複数のデータセットにわたる新規性検出アルゴリズムを改善することを証明します。
要約(オリジナル)
Novelty detection aims at finding samples that differ in some form from the distribution of seen samples. But not all changes are created equal. Data can suffer a multitude of distribution shifts, and we might want to detect only some types of relevant changes. Similar to works in out-of-distribution generalization, we propose to use the formalization of separating into semantic or content changes, that are relevant to our task, and style changes, that are irrelevant. Within this formalization, we define the robust novelty detection as the task of finding semantic changes while being robust to style distributional shifts. Leveraging pretrained, large-scale model representations, we introduce Stylist, a novel method that focuses on dropping environment-biased features. First, we compute a per-feature score based on the feature distribution distances between environments. Next, we show that our selection manages to remove features responsible for spurious correlations and improve novelty detection performance. For evaluation, we adapt domain generalization datasets to our task and analyze the methods behaviors. We additionally built a large synthetic dataset where we have control over the spurious correlations degree. We prove that our selection mechanism improves novelty detection algorithms across multiple datasets, containing both stylistic and content shifts.
arxiv情報
著者 | Stefan Smeu,Elena Burceanu,Emanuela Haller,Andrei Liviu Nicolicioiu |
発行日 | 2023-10-05 17:58:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google