Persistent Laplacian-enhanced Algorithm for Scarcely Labeled Data Classification

要約

多くの機械学習 (ML) 手法の成功は、大量のラベル付きデータがあるかどうかに大きく依存します。
ただし、十分なラベル付きデータを取得するには、費用と時間がかかり、多くのアプリケーションでは倫理的制約を受ける可能性があります。
この課題に対処する上で多大な価値を示しているアプローチの 1 つは、半教師あり学習 (SSL) です。
この手法では、トレーニング中にラベル付きデータとラベルなしデータの両方を利用しますが、多くの場合、ラベルなしデータよりもラベル付きデータがはるかに少なく、取得するのが比較的簡単で安価であることがよくあります。
実際、SSL メソッドは、医療分析、自然言語処理 (NLP)、音声認識など、データのラベル付けのコストが特に高価なアプリケーションで特に役立ちます。
さまざまな分野で大きな成功を収めている SSL メソッドのサブセットには、グラフベースの技術を統合したアルゴリズムが含まれています。
これらの手順は、グラフィカル フレームワークによって提供される膨大な量の情報とアプリケーションの多用途性により人気があります。
この研究では、永続スペクトル グラフ理論と古典的なメリマン・ベンス・オッシャー (MBO) スキームを統合することにより、永続ラプラシアン拡張グラフ MBO (PL-MBO) と呼ばれる代数トポロジーに基づく半教師あり手法を提案します。
具体的には、フィルタリング手順を使用して一連の鎖複合体および関連する単純複合体のファミリーを生成し、そこから永続的なラプラシアンのファミリーを構築します。
全体として、これは非常に効率的な手順であり、多くの ML 手法と比較して適切に実行するために必要なラベル付きデータがはるかに少なく、小規模なデータセットと大規模なデータセットの両方に適応できます。
データ分類における提案手法のパフォーマンスを評価したところ、提案手法が他の既存の半教師ありアルゴリズムよりも優れていることがわかりました。

要約(オリジナル)

The success of many machine learning (ML) methods depends crucially on having large amounts of labeled data. However, obtaining enough labeled data can be expensive, time-consuming, and subject to ethical constraints for many applications. One approach that has shown tremendous value in addressing this challenge is semi-supervised learning (SSL); this technique utilizes both labeled and unlabeled data during training, often with much less labeled data than unlabeled data, which is often relatively easy and inexpensive to obtain. In fact, SSL methods are particularly useful in applications where the cost of labeling data is especially expensive, such as medical analysis, natural language processing (NLP), or speech recognition. A subset of SSL methods that have achieved great success in various domains involves algorithms that integrate graph-based techniques. These procedures are popular due to the vast amount of information provided by the graphical framework and the versatility of their applications. In this work, we propose an algebraic topology-based semi-supervised method called persistent Laplacian-enhanced graph MBO (PL-MBO) by integrating persistent spectral graph theory with the classical Merriman-Bence- Osher (MBO) scheme. Specifically, we use a filtration procedure to generate a sequence of chain complexes and associated families of simplicial complexes, from which we construct a family of persistent Laplacians. Overall, it is a very efficient procedure that requires much less labeled data to perform well compared to many ML techniques, and it can be adapted for both small and large datasets. We evaluate the performance of the proposed method on data classification, and the results indicate that the proposed technique outperforms other existing semi-supervised algorithms.

arxiv情報

著者 Gokul Bhusal,Ekaterina Merkurjev,Guo-Wei Wei
発行日 2023-05-25 16:49:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク