要約
がん関連の医学抄録を正確に分類することは、医療管理と研究にとって非常に重要です。
ただし、プライバシーの問題と臨床データの複雑さのため、医療分野で大規模なラベル付きデータセットを取得することは困難です。
この注釈付きデータの不足は、がん文書分類のための効果的な機械学習モデルの開発を妨げています。
この課題に対処するために、甲状腺がん、結腸がん、肺がん、および一般的なトピックに分類された 1,874 件の生物医学抄録からなる厳選されたデータセットを紹介します。
私たちの研究は、特にデータが不足しているシナリオにおいて、このデータセットを活用して分類パフォーマンスを向上させることに焦点を当てています。
がん関連文書内の意味情報と構造的関係を捕捉する複数のグラフ アテンション レイヤーを備えた残差グラフ アテンション ネットワーク (R-GAT) を導入します。
当社の R-GAT モデルは、Bidirectional Encoder Representations from Transformers (BERT)、RoBERTa などのトランスフォーマーベースのモデル、BioBERT や Bio+ClinicalBERT などのドメイン固有のモデルなど、さまざまな技術と比較されます。
また、深層学習モデル (CNN、LSTM) と従来の機械学習モデル (ロジスティック回帰、SVM) も評価しました。
さらに、深層学習モデルを組み合わせて分類を強化するアンサンブル アプローチを検討します。
ユニグラムとバイグラムを使用した用語頻度 – 逆文書頻度 (TF-IDF)、Word2Vec、BERT と RoBERTa のトークナイザーなど、さまざまな特徴抽出方法が評価されます。
R-GAT モデルは他の技術よりも優れており、甲状腺がんの精度、再現率、F1 スコア 0.99、0.97、0.98 を達成しています。
結腸がんの場合は 0.96、0.94、0.95。
肺がんの場合は 0.96、0.99、0.97。
一般的なトピックの場合は 0.95、0.96、0.95 です。
要約(オリジナル)
Accurate classification of cancer-related medical abstracts is crucial for healthcare management and research. However, obtaining large, labeled datasets in the medical domain is challenging due to privacy concerns and the complexity of clinical data. This scarcity of annotated data impedes the development of effective machine learning models for cancer document classification. To address this challenge, we present a curated dataset of 1,874 biomedical abstracts, categorized into thyroid cancer, colon cancer, lung cancer, and generic topics. Our research focuses on leveraging this dataset to improve classification performance, particularly in data-scarce scenarios. We introduce a Residual Graph Attention Network (R-GAT) with multiple graph attention layers that capture the semantic information and structural relationships within cancer-related documents. Our R-GAT model is compared with various techniques, including transformer-based models such as Bidirectional Encoder Representations from Transformers (BERT), RoBERTa, and domain-specific models like BioBERT and Bio+ClinicalBERT. We also evaluated deep learning models (CNNs, LSTMs) and traditional machine learning models (Logistic Regression, SVM). Additionally, we explore ensemble approaches that combine deep learning models to enhance classification. Various feature extraction methods are assessed, including Term Frequency-Inverse Document Frequency (TF-IDF) with unigrams and bigrams, Word2Vec, and tokenizers from BERT and RoBERTa. The R-GAT model outperforms other techniques, achieving precision, recall, and F1 scores of 0.99, 0.97, and 0.98 for thyroid cancer; 0.96, 0.94, and 0.95 for colon cancer; 0.96, 0.99, and 0.97 for lung cancer; and 0.95, 0.96, and 0.95 for generic topics.
arxiv情報
著者 | Elias Hossain,Tasfia Nuzhat,Shamsul Masum,Shahram Rahimi,Sudip Mittal,Noorbakhsh Amiri Golilarz |
発行日 | 2024-10-24 14:42:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google