HardVis: Visual Analytics to Handle Instance Hardness Using Undersampling and Oversampling Techniques

要約

機械学習 (ML) の驚異的な進歩にも関わらず、不均衡なデータを使用したトレーニングは、多くの実世界のアプリケーションにおいて依然として課題を引き起こしています。
この問題を解決するための一連の多様な技術の中で、サンプリング アルゴリズムは効率的な解決策とみなされています。
ただし、問題はより根本的なものであり、多くの研究でインスタンスの硬度の重要性が強調されています。
この問題は、誤って分類される可能性が高く、分類パフォーマンスの低下の根本原因となる、安全でないインスタンスや潜在的にノイズの多いインスタンスを管理することの重要性について言及しています。
このペーパーでは、主に不均衡な分類シナリオでインスタンスの硬度を処理するように設計されたビジュアル分析システムである HardVis を紹介します。
私たちが提案するシステムは、ユーザーがデータ型のさまざまな分布を視覚的に比較し、後でアクティブ サンプリング手法の影響を受けるローカル特性に基づいてインスタンスの種類を選択し、アンダーサンプリングまたはオーバーサンプリング手法からのどの提案が ML モデルにとって有益であるかを検証するのに役立ちます。
さらに、特定のクラスを一律にアンダーサンプリング/オーバーサンプリングするのではなく、ユーザーがすべてのクラスから分類しやすいトレーニング インスタンスと分類しにくいトレーニング インスタンスを見つけてサンプリングできるようにします。
ユーザーはさまざまな観点からデータのサブセットを探索してこれらすべてのパラメーターを決定できますが、HardVis はステップを追跡し、テスト セットでのモデルの予測パフォーマンスを個別に評価します。
最終的には、ML モデルの予測力を高めるバランスのとれたデータセットが得られます。
HardVis の有効性と有効性は、仮想の使用シナリオとユースケースを使用して実証されます。
最後に、ML 専門家から受け取ったフィードバックに基づいて、システムがどの程度役立つかについても確認します。

要約(オリジナル)

Despite the tremendous advances in machine learning (ML), training with imbalanced data still poses challenges in many real-world applications. Among a series of diverse techniques to solve this problem, sampling algorithms are regarded as an efficient solution. However, the problem is more fundamental, with many works emphasizing the importance of instance hardness. This issue refers to the significance of managing unsafe or potentially noisy instances that are more likely to be misclassified and serve as the root cause of poor classification performance. This paper introduces HardVis, a visual analytics system designed to handle instance hardness mainly in imbalanced classification scenarios. Our proposed system assists users in visually comparing different distributions of data types, selecting types of instances based on local characteristics that will later be affected by the active sampling method, and validating which suggestions from undersampling or oversampling techniques are beneficial for the ML model. Additionally, rather than uniformly undersampling/oversampling a specific class, we allow users to find and sample easy and difficult to classify training instances from all classes. Users can explore subsets of data from different perspectives to decide all those parameters, while HardVis keeps track of their steps and evaluates the model’s predictive performance in a test set separately. The end result is a well-balanced data set that boosts the predictive power of the ML model. The efficacy and effectiveness of HardVis are demonstrated with a hypothetical usage scenario and a use case. Finally, we also look at how useful our system is based on feedback we received from ML experts.

arxiv情報

著者 Angelos Chatzimparmpas,Fernando V. Paulovich,Andreas Kerren
発行日 2024-04-18 16:37:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, stat.ML パーマリンク