Neural Relation Graph: A Unified Framework for Identifying Label Noise and Outlier Data




– 概要:汚染されたデータの識別とクリーニングは、頑健な機械学習システムを構築するための重要なステップです。しかし、実世界の分布を持つ大規模なデータセット内の問題を特定することは、ラベルエラー、アンダーレプレゼンテーション、外れ値など、複雑な問題の存在によって困難を伴います。
– 提案:リレーショナルグラフ構造の情報を使用することで、問題のあるデータを同時に特定するための統合的なアプローチを提案します。これにより、データのリレーショナルグラフ構造に基づくラベルエラーと外れ値データを検出するためのスケーラブルで効果的なアルゴリズムを提示します。
– その他:さらに、特徴埋め込み空間のデータポイントの文脈情報を提供する視覚化ツールを紹介し、データの診断に有効なツールとして機能することを示します。ImageNet、ESC-50、およびMNLIを含む大規模な画像、音声、および言語のタスクで、私たちのアプローチのラベルエラーデータと外れ値/領域外(OOD)検出パフォーマンスを評価します。私たちのアプローチは、考慮されるすべてのタスクで最先端の検出パフォーマンスを達成し、さまざまなドメインの大規模な実世界データセットのデバッグの有効性を示しています。


Diagnosing and cleaning data is a crucial step for building robust machine learning systems. However, identifying problems within large-scale datasets with real-world distributions is challenging due to the presence of complex issues such as label errors, under-representation, and outliers. In this paper, we propose a unified approach for identifying the problematic data by utilizing a largely ignored source of information: a relational structure of data in the feature-embedded space. To this end, we present scalable and effective algorithms for detecting label errors and outlier data based on the relational graph structure of data. We further introduce a visualization tool that provides contextual information of a data point in the feature-embedded space, serving as an effective tool for interactively diagnosing data. We evaluate the label error and outlier/out-of-distribution (OOD) detection performances of our approach on the large-scale image, speech, and language domain tasks, including ImageNet, ESC-50, and MNLI. Our approach achieves state-of-the-art detection performance on all tasks considered and demonstrates its effectiveness in debugging large-scale real-world datasets across various domains.


著者 Jang-Hyun Kim,Sangdoo Yun,Hyun Oh Song
発行日 2023-05-02 06:31:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.LG パーマリンク