要約
実際のアプリケーションでは、データの可用性が高まるにつれて、機械学習 (ML) プロジェクト用のラベル付きデータを取得することは、データの注釈に必要なコストと集中的な作業のため、依然として困難です。
多くの ML プロジェクト、特にマルチラベル分類に焦点を当てたプロジェクトは、特定のクラスが効果的な分類器をトレーニングするのに十分なデータを欠いている可能性があるという、データの不均衡の問題にも取り組んでいます。
この研究では、データの不均衡に関連するパフォーマンスの課題に対処するために設計された、マルチラベル テキスト分類のための新しいオーバーサンプリング方法を導入および検証します。
提案された方法は、インスタンス間の類似性の尺度を利用して、ラベルのないデータから潜在的な新しいサンプルを識別します。
このメソッドは、ラベルのないデータセットを繰り返し検索することで、過小評価されているクラスのインスタンスに類似したインスタンスを見つけ出し、分類器のパフォーマンス向上に対するそれらの貢献を評価します。
パフォーマンスの向上を示すインスタンスは、ラベル付きデータセットに追加されます。
実験結果は、提案されたアプローチがオーバーサンプリング後の分類器のパフォーマンスを効果的に向上させることを示しています。
要約(オリジナル)
In real-world applications, as data availability increases, obtaining labeled data for machine learning (ML) projects remains challenging due to the high costs and intensive efforts required for data annotation. Many ML projects, particularly those focused on multi-label classification, also grapple with data imbalance issues, where certain classes may lack sufficient data to train effective classifiers. This study introduces and examines a novel oversampling method for multi-label text classification, designed to address performance challenges associated with data imbalance. The proposed method identifies potential new samples from unlabeled data by leveraging similarity measures between instances. By iteratively searching the unlabeled dataset, the method locates instances similar to those in underrepresented classes and evaluates their contribution to classifier performance enhancement. Instances that demonstrate performance improvement are then added to the labeled dataset. Experimental results indicate that the proposed approach effectively enhances classifier performance post-oversampling.
arxiv情報
著者 | Ismail Hakki Karaman,Gulser Koksal,Levent Eriskin,Salih Salihoglu |
発行日 | 2024-11-14 14:23:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google