Leveraging Semi-Supervised Learning to Enhance Data Mining for Image Classification under Limited Labeled Data

要約

21世紀の情報化時代では、ビッグデータ技術の発展に伴い、大量のデータから価値のある情報を効果的に抽出することが重要な課題となっています。
従来のデータ マイニング手法は、大規模、高次元、複雑なデータに直面した場合には不十分です。
特にラベル付きデータが少ない場合、そのパフォーマンスは大幅に制限されます。
この研究は、半教師あり学習手法を導入することでデータマイニングアルゴリズムを最適化し、ラベルなしデータを利用するアルゴリズムの能力を向上させ、それによって限られたラベル付きデータ条件下でより正確なデータ分析とパターン認識を達成することを目的としています。
具体的には、自己学習手法を採用し、畳み込みニューラルネットワーク(CNN)と組み合わせて画像の特徴抽出と分類を行い、反復プロセスを通じてモデルの予測パフォーマンスを継続的に向上させます。
実験結果は、提案された手法が、CIFAR-10 画像分類データセット上でサポート ベクター マシン (SVM)、XGBoost、多層パーセプトロン (MLP) などの従来の機械学習手法を大幅に上回るパフォーマンスを示していることを示しています。
精度、再現率、F1 スコアなどの主要なパフォーマンス指標で顕著な改善が見られました。
さらに、半教師あり CNN モデルの堅牢性とノイズ耐性機能が、さまざまなノイズ レベルでの実験を通じて検証され、現実のシナリオでの実用的な適用可能性が確認されました。

要約(オリジナル)

In the 21st-century information age, with the development of big data technology, effectively extracting valuable information from massive data has become a key issue. Traditional data mining methods are inadequate when faced with large-scale, high-dimensional and complex data. Especially when labeled data is scarce, their performance is greatly limited. This study optimizes data mining algorithms by introducing semi-supervised learning methods, aiming to improve the algorithm’s ability to utilize unlabeled data, thereby achieving more accurate data analysis and pattern recognition under limited labeled data conditions. Specifically, we adopt a self-training method and combine it with a convolutional neural network (CNN) for image feature extraction and classification, and continuously improve the model prediction performance through an iterative process. The experimental results demonstrate that the proposed method significantly outperforms traditional machine learning techniques such as Support Vector Machine (SVM), XGBoost, and Multi-Layer Perceptron (MLP) on the CIFAR-10 image classification dataset. Notable improvements were observed in key performance metrics, including accuracy, recall, and F1 score. Furthermore, the robustness and noise-resistance capabilities of the semi-supervised CNN model were validated through experiments under varying noise levels, confirming its practical applicability in real-world scenarios.

arxiv情報

著者 Aoran Shen,Minghao Dai,Jiacheng Hu,Yingbin Liang,Shiru Wang,Junliang Du
発行日 2024-11-27 18:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク