Ontology-based Semantic Similarity Measures for Clustering Medical Concepts in Drug Safety

要約

セマンティックな類似性測定(SSM)は、生物医学研究で広く使用されていますが、ファーマコビリタンスでは十分に活用されていません。
この研究では、薬物安全データのMEDDRA優先項(PTS)のクラスタリング用の6つのオントロジーベースのSSMを評価します。
Unified Medical Language System(UMLS)を使用して、医学的に意味のある重心を中心にPTをグループ化する各方法の能力を評価します。
Java APIとPythonおよびRインターフェイスを使用して、ハイスループットフレームワークが開発され、大規模な類似性計算がサポートされています。
結果は、パスベースのメソッドは、Wupalmerで0.36、LCHの0.28のF1スコア(IC)ベースの測定、特に固有のリンとソカルで適度に機能し、一貫してより良いクラスタリング精度(F1スコア0.403)を生成することを示しています。
専門家のレビューと標準的なMEDDRAクエリ(SMQ)に対して検証された調査結果は、早期の信号検出を改善し、手動のレビューを削減することにより、薬物存在ワークフローの強化におけるICベースのSSMの約束を強調しています。

要約(オリジナル)

Semantic similarity measures (SSMs) are widely used in biomedical research but remain underutilized in pharmacovigilance. This study evaluates six ontology-based SSMs for clustering MedDRA Preferred Terms (PTs) in drug safety data. Using the Unified Medical Language System (UMLS), we assess each method’s ability to group PTs around medically meaningful centroids. A high-throughput framework was developed with a Java API and Python and R interfaces support large-scale similarity computations. Results show that while path-based methods perform moderately with F1 scores of 0.36 for WUPALMER and 0.28 for LCH, intrinsic information content (IC)-based measures, especially INTRINSIC-LIN and SOKAL, consistently yield better clustering accuracy (F1 score of 0.403). Validated against expert review and standard MedDRA queries (SMQs), our findings highlight the promise of IC-based SSMs in enhancing pharmacovigilance workflows by improving early signal detection and reducing manual review.

arxiv情報

著者 Jeffery L Painter,François Haguinet,Gregory E Powell,Andrew Bate
発行日 2025-03-26 17:19:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, G.3 パーマリンク