HBIC: A Biclustering Algorithm for Heterogeneous Datasets

要約

バイクラスタリングは、データ マトリックス内の行と列を同時にクラスタリングすることを目的とした教師なし機械学習アプローチです。
数値データセットを処理するために、いくつかのバイクラスタリング アルゴリズムが提案されています。
ただし、実際のデータ マイニングの問題には、属性が混合された異種データセットが関係することがよくあります。
この課題に対処するために、HBIC と呼ばれるバイクラスタリング アプローチを導入します。これは、数値データ、バイナリ データ、カテゴリ データなどの複雑な異種データから意味のあるバイクラスタを検出できます。
このアプローチは、バイクラスターの生成とバイクラスター モデルの選択の 2 つの段階で構成されます。
初期段階では、元の行列の値の頻度に基づいて行と列を追加および削除することによって、いくつかのバイクラスター候補が繰り返し生成されます。
第 2 段階では、サイズと均一性を考慮して最適なバイクラスターを選択するための 2 つのアプローチを紹介します。
一連の実験を通じて、合成ベンチマークおよび全身性硬化症患者の臨床データを含む生物医学的応用におけるアプローチの適合性を調査しました。
私たちの方法を既存のアプローチと比較した評価は、異種データから高品質のバイクラスターを発見する能力を示しています。
私たちのバイクラスタリングアプローチは、異種バイクラスタ発見の出発点であり、複雑な基礎となるデータ構造のより深い理解につながります。

要約(オリジナル)

Biclustering is an unsupervised machine-learning approach aiming to cluster rows and columns simultaneously in a data matrix. Several biclustering algorithms have been proposed for handling numeric datasets. However, real-world data mining problems often involve heterogeneous datasets with mixed attributes. To address this challenge, we introduce a biclustering approach called HBIC, capable of discovering meaningful biclusters in complex heterogeneous data, including numeric, binary, and categorical data. The approach comprises two stages: bicluster generation and bicluster model selection. In the initial stage, several candidate biclusters are generated iteratively by adding and removing rows and columns based on the frequency of values in the original matrix. In the second stage, we introduce two approaches for selecting the most suitable biclusters by considering their size and homogeneity. Through a series of experiments, we investigated the suitability of our approach on a synthetic benchmark and in a biomedical application involving clinical data of systemic sclerosis patients. The evaluation comparing our method to existing approaches demonstrates its ability to discover high-quality biclusters from heterogeneous data. Our biclustering approach is a starting point for heterogeneous bicluster discovery, leading to a better understanding of complex underlying data structures.

arxiv情報

著者 Adán José-García,Julie Jacques,Clément Chauvet,Vincent Sobanski,Clarisse Dhaenens
発行日 2024-08-23 16:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク