Graph-Based Bidirectional Transformer Decision Threshold Adjustment Algorithm for Class-Imbalanced Molecular Data

要約

クラス サイズが不均衡なデータ セット (あるクラス サイズが他のクラス サイズよりもはるかに小さいことがよくあります) は、創薬や病気の診断などの生物学的基礎を持つアプリケーションを含むさまざまなアプリケーションで非常に頻繁に発生します。
したがって、検出に失敗すると多大なコストが発生する可能性があるため、さまざまなサイズのクラスのデータ要素を識別できることが非常に重要です。
ただし、多くのデータ分類アルゴリズムは、過小評価されたクラスに属する要素の検出に失敗することが多いため、不均衡なデータセットではうまく機能しません。
この論文では、非常に不均衡な分子データセットのデータ分類問題に対して、Merriman-Bence-Osher (MBO) 技術と双方向変換器、距離相関と決定閾値調整を組み込んだ BTDT-MBO アルゴリズムを提案します。
クラスの規模は大きく異なります。
提案された方法は、クラスの不均衡に対処するために MBO アルゴリズムの分類しきい値の調整を統合するだけでなく、自己教師あり学習のためのアテンション メカニズムに基づく双方向トランスフォーマー モデルも使用します。
さらに、この方法は、調整された MBO アルゴリズムが動作する類似度グラフベースのフレームワークの重み関数として距離相関を実装します。
提案されたモデルは 6 つの分子データセットを使用して検証され、他の競合アルゴリズムとの徹底的な比較も提供されます。
計算実験では、クラスの不均衡率が非常に高い場合でも、提案された方法が競合する技術よりも優れたパフォーマンスを発揮することが示されています。

要約(オリジナル)

Data sets with imbalanced class sizes, often where one class size is much smaller than that of others, occur extremely often in various applications, including those with biological foundations, such as drug discovery and disease diagnosis. Thus, it is extremely important to be able to identify data elements of classes of various sizes, as a failure to detect can result in heavy costs. However, many data classification algorithms do not perform well on imbalanced data sets as they often fail to detect elements belonging to underrepresented classes. In this paper, we propose the BTDT-MBO algorithm, incorporating Merriman-Bence-Osher (MBO) techniques and a bidirectional transformer, as well as distance correlation and decision threshold adjustments, for data classification problems on highly imbalanced molecular data sets, where the sizes of the classes vary greatly. The proposed method not only integrates adjustments in the classification threshold for the MBO algorithm in order to help deal with the class imbalance, but also uses a bidirectional transformer model based on an attention mechanism for self-supervised learning. Additionally, the method implements distance correlation as a weight function for the similarity graph-based framework on which the adjusted MBO algorithm operates. The proposed model is validated using six molecular data sets, and we also provide a thorough comparison to other competing algorithms. The computational experiments show that the proposed method performs better than competing techniques even when the class imbalance ratio is very high.

arxiv情報

著者 Nicole Hayes,Ekaterina Merkurjev,Guo-Wei Wei
発行日 2024-06-10 17:20:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM パーマリンク