An Active Learning Framework with a Class Balancing Strategy for Time Series Classification

要約

分類タスク用の機械学習モデルのトレーニングには多くの場合、多数のサンプルにラベルを付ける必要があり、特に時系列分析ではコストと時間がかかります。
この研究では、効果的な時系列分類に必要なラベル付きデータの量を削減するためのアクティブ ラーニング (AL) 戦略を調査します。
従来の AL 手法では、ラベル付けするクラスごとのインスタンスの選択を制御できないため、特に不均衡な時系列データセットでは、分類パフォーマンスとインスタンスの選択に潜在的な偏りが生じます。
これに対処するために、標準の AL 戦略と統合された新しいクラス バランシング インスタンス選択アルゴリズムを提案します。
私たちのアプローチは、ラベル付きサンプルが少ないクラスからより多くのインスタンスを選択し、それによって時系列データセットの不均衡に対処することを目的としています。
私たちは、触覚テクスチャ認識と産業上の障害検出という 2 つの異なる領域に対して有益なデータ サンプルを選択する際の AL フレームワークの有効性を実証します。
ロボット工学において、私たちの手法は、ラベル付きトレーニング データの要件を 70% に大幅に削減しながら、高性能のテクスチャ分類を実現します。
また、AL 戦略を使用して、ロボットによるテクスチャ分類に対するさまざまなスライディング ウィンドウ時間間隔の影響も評価します。
合成繊維製造では、業界のデータ注釈のコストと時間を最小限に抑えることを目的として、AL 技術を適応して障害分類の課題に対処しています。
また、AL 戦略と統合されたクラス バランシング インスタンス アルゴリズムを使用して、マルチクラス産業異常データセットにおける実際のクラスの不均衡にも対処します。
全体として、この論文は、これら 2 つの異なるドメインにわたる AL フレームワークの可能性を強調しています。

要約(オリジナル)

Training machine learning models for classification tasks often requires labeling numerous samples, which is costly and time-consuming, especially in time series analysis. This research investigates Active Learning (AL) strategies to reduce the amount of labeled data needed for effective time series classification. Traditional AL techniques cannot control the selection of instances per class for labeling, leading to potential bias in classification performance and instance selection, particularly in imbalanced time series datasets. To address this, we propose a novel class-balancing instance selection algorithm integrated with standard AL strategies. Our approach aims to select more instances from classes with fewer labeled examples, thereby addressing imbalance in time series datasets. We demonstrate the effectiveness of our AL framework in selecting informative data samples for two distinct domains of tactile texture recognition and industrial fault detection. In robotics, our method achieves high-performance texture categorization while significantly reducing labeled training data requirements to 70%. We also evaluate the impact of different sliding window time intervals on robotic texture classification using AL strategies. In synthetic fiber manufacturing, we adapt AL techniques to address the challenge of fault classification, aiming to minimize data annotation cost and time for industries. We also address real-life class imbalances in the multiclass industrial anomalous dataset using our class-balancing instance algorithm integrated with AL strategies. Overall, this thesis highlights the potential of our AL framework across these two distinct domains.

arxiv情報

著者 Shemonto Das
発行日 2024-05-20 15:39:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク