A Novel Sampled Clustering Algorithm for Rice Phenotypic Data

要約

植物種の表現型 (または物理的) 特性は、クラスタリングを実行するために一般的に使用されます。
私たちの最近の研究の 1 つ (Shastri et al. (2021)) では、確率的にサンプリングされ (ピボタル サンプリングを使用) スペクトル的にクラスター化されたアルゴリズムを使用して、大豆種をグループ化しました。
これらの技術は、低コストで高精度のクラスタリングを取得するために使用されました。
この研究では、以前のアルゴリズムを拡張してイネ種をクラスタリングします。
基本アルゴリズムを 3 つの方法で改善します。
まず、スペクトル クラスタリングで類似性行列を構築するための新しい関数を提案します。
一般に、この目的には自然指数関数が使用されます。
スペクトル グラフ理論と関連するチーガーの不等式に基づいて、代わりに基数「a」の指数関数を使用することを提案します。
これにより、クラスタリングに適した類似度行列スペクトルが得られます。これは、固有値分析によってサポートされます。
第 2 に、スペクトル クラスタリングで類似性行列を構築するために使用される関数は、以前は固定係数でスケーリングされていました (グローバル スケーリングと呼ばれます)。
Zelnik-Manor と Perona (2004) のアイデアに基づいて、行列要素に応じて変化する係数 (ローカル スケーリングと呼ばれる) を使用し、より適切に機能するようになりました。
第三に、重要なサンプリング アルゴリズムで種が含まれる確率を計算するために、以前は種の特性値がそれぞれの基本値 (すべての種について計算) からどの程度離れているかを捉える偏差の概念を使用していました。
以前は、基本値を見つけるために最大関数が使用されていました。
ここでは、より直感的な中央値関数を使用します。
私たちは統計分析を使用してこの選択をサポートします。
1865 種のイネに関する実験により、シルエット値の点で、新しいサンプル スペクトル クラスタリングが階層クラスタリング (現在普及している) より 61% 優れていることを示しました。
また、新しいアルゴリズムは、サンプリングが含まれるため、階層的クラスタリングよりも大幅に高速です。

要約(オリジナル)

Phenotypic (or Physical) characteristics of plant species are commonly used to perform clustering. In one of our recent works (Shastri et al. (2021)), we used a probabilistically sampled (using pivotal sampling) and spectrally clustered algorithm to group soybean species. These techniques were used to obtain highly accurate clusterings at a reduced cost. In this work, we extend the earlier algorithm to cluster rice species. We improve the base algorithm in three ways. First, we propose a new function to build the similarity matrix in Spectral Clustering. Commonly, a natural exponential function is used for this purpose. Based upon the spectral graph theory and the involved Cheeger’s inequality, we propose the use a base ‘a’ exponential function instead. This gives a similarity matrix spectrum favorable for clustering, which we support via an eigenvalue analysis. Second, the function used to build the similarity matrix in Spectral Clustering was earlier scaled with a fixed factor (called global scaling). Based upon the idea of Zelnik-Manor and Perona (2004), we now use a factor that varies with matrix elements (called local scaling) and works better. Third, to compute the inclusion probability of a specie in the pivotal sampling algorithm, we had earlier used the notion of deviation that captured how far specie’s characteristic values were from their respective base values (computed over all species). A maximum function was used before to find the base values. We now use a median function, which is more intuitive. We support this choice using a statistical analysis. With experiments on 1865 rice species, we demonstrate that in terms of silhouette values, our new Sampled Spectral Clustering is 61% better than Hierarchical Clustering (currently prevalent). Also, our new algorithm is significantly faster than Hierarchical Clustering due to the involved sampling.

arxiv情報

著者 Mithun Singh,Kapil Ahuja,Milind B. Ratnaparkhe
発行日 2023-12-22 18:53:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, 68T10, cs.AI, cs.LG, I.2.1 パーマリンク