Unsupervised hierarchical clustering using the learning dynamics of RBMs

要約

現実世界のデータセットは多くの場合複雑で、ある程度階層的になっており、データのグループやサブグループはさまざまな抽象化レベルで共通の特性を共有しています。
これらのデータセットの隠された構造を理解して明らかにすることは、多くの実際的な応用が可能な重要なタスクです。
この課題に対処するために、制限付きボルツマン マシン (RBM) の学習ダイナミクスを利用してリレーショナル データ ツリーを構築するための新しい一般的な方法を紹介します。
私たちの手法は、Plefka 拡張から派生した平均場アプローチに基づいており、無秩序なシステムのコンテキストで開発されました。
簡単に解釈できるように設計されています。
私たちは、人工的に作成された階層データセットと 3 つの異なる現実世界のデータセット (数字の画像、ヒトゲノムの変異、および相同なタンパク質ファミリー) でメソッドをテストしました。
この方法では、データの階層構造を自動的に識別できます。
これは、タンパク質間の関係が機能と進化を理解するために重要である相同タンパク質配列の研究に役立つ可能性があります。

要約(オリジナル)

Datasets in the real world are often complex and to some degree hierarchical, with groups and sub-groups of data sharing common characteristics at different levels of abstraction. Understanding and uncovering the hidden structure of these datasets is an important task that has many practical applications. To address this challenge, we present a new and general method for building relational data trees by exploiting the learning dynamics of the Restricted Boltzmann Machine (RBM). Our method is based on the mean-field approach, derived from the Plefka expansion, and developed in the context of disordered systems. It is designed to be easily interpretable. We tested our method in an artificially created hierarchical dataset and on three different real-world datasets (images of digits, mutations in the human genome, and a homologous family of proteins). The method is able to automatically identify the hierarchical structure of the data. This could be useful in the study of homologous protein sequences, where the relationships between proteins are critical for understanding their function and evolution.

arxiv情報

著者 Aurélien Decelle,Lorenzo Rosset,Beatriz Seoane
発行日 2023-06-09 17:05:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.LG パーマリンク