HBIC: A Biclustering Algorithm for Heterogeneous Datasets


バイクラスタリングは、データ マトリックス内の行と列を同時にクラスタリングすることを目的とした教師なし機械学習アプローチです。
数値データセットを処理するために、いくつかのバイクラスタリング アルゴリズムが提案されています。
ただし、実際のデータ マイニングの問題には、属性が混合された異種データセットが関係することがよくあります。
この課題に対処するために、HBIC と呼ばれるバイクラスタリング アプローチを導入します。これは、数値データ、バイナリ データ、カテゴリ データなどの複雑な異種データから意味のあるバイクラスタを検出できます。
このアプローチは、バイクラスターの生成とバイクラスター モデルの選択の 2 つの段階で構成されます。
第 2 段階では、サイズと均一性を考慮して最適なバイクラスターを選択するための 2 つのアプローチを紹介します。


Biclustering is an unsupervised machine-learning approach aiming to cluster rows and columns simultaneously in a data matrix. Several biclustering algorithms have been proposed for handling numeric datasets. However, real-world data mining problems often involve heterogeneous datasets with mixed attributes. To address this challenge, we introduce a biclustering approach called HBIC, capable of discovering meaningful biclusters in complex heterogeneous data, including numeric, binary, and categorical data. The approach comprises two stages: bicluster generation and bicluster model selection. In the initial stage, several candidate biclusters are generated iteratively by adding and removing rows and columns based on the frequency of values in the original matrix. In the second stage, we introduce two approaches for selecting the most suitable biclusters by considering their size and homogeneity. Through a series of experiments, we investigated the suitability of our approach on a synthetic benchmark and in a biomedical application involving clinical data of systemic sclerosis patients. The evaluation comparing our method to existing approaches demonstrates its ability to discover high-quality biclusters from heterogeneous data. Our biclustering approach is a starting point for heterogeneous bicluster discovery, leading to a better understanding of complex underlying data structures.


著者 Adán José-García,Julie Jacques,Clément Chauvet,Vincent Sobanski,Clarisse Dhaenens
発行日 2024-08-23 16:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク