Machine Learning to Promote Translational Research: Predicting Patent and Clinical Trial Inclusion in Dementia Research

要約

2040 年までに英国で 160 万人に影響を与え、年間 250 億ポンドの費用がかかると予測されている認知症は、社会にますます深刻な課題をもたらしています。
この研究は、機械学習を使用して認知症研究のトランスレーショナルな可能性を予測する先駆的な取り組みであり、認知症が社会的および経済的に重大な影響を及ぼしているにもかかわらず、基礎的な発見が実用化に移るのが遅いという問題に対処したいと考えています。
私たちは、Dimensions データベースを使用して、1990 年から 2023 年までの 43,091 件の英国の認知症研究出版物からデータ、具体的にはメタデータ (著者、出版年など)、論文で言及されている概念、論文要約を抽出しました。
機械学習用のデータを準備するために、ワン ホット エンコーディングや単語埋め込みなどの方法を適用しました。
私たちは、出版物が将来の特許または臨床試験で引用されるかどうかを予測するために CatBoost 分類子をトレーニングしました。
いくつかのモデルのバリエーションをトレーニングしました。
メタデータ、コンセプト、および抽象的な埋め込みを組み合わせたモデルは最高のパフォーマンスをもたらしました。特許予測では、受信者動作特性曲線下面積 (AUROC) の精度が 0.84% および 77.17% でした。
臨床試験予測の場合、AUROC は 0.81、精度は 75.11% です。
この結果は、現在の研究方法論に機械学習を統合することで、見落とされている論文を発見し、有望な研究の特定を促進し、現実世界への影響を予測し、トランスレーショナル戦略を導くことで認知症研究を変革する可能性があることを示しています。

要約(オリジナル)

Projected to impact 1.6 million people in the UK by 2040 and costing {\pounds}25 billion annually, dementia presents a growing challenge to society. This study, a pioneering effort to predict the translational potential of dementia research using machine learning, hopes to address the slow translation of fundamental discoveries into practical applications despite dementia’s significant societal and economic impact. We used the Dimensions database to extract data from 43,091 UK dementia research publications between the years 1990-2023, specifically metadata (authors, publication year etc.), concepts mentioned in the paper, and the paper abstract. To prepare the data for machine learning we applied methods such as one hot encoding and/or word embeddings. We trained a CatBoost Classifier to predict if a publication will be cited in a future patent or clinical trial. We trained several model variations. The model combining metadata, concept, and abstract embeddings yielded the highest performance: for patent predictions, an Area Under the Receiver Operating Characteristic Curve (AUROC) of 0.84 and 77.17% accuracy; for clinical trial predictions, an AUROC of 0.81 and 75.11% accuracy. The results demonstrate that integrating machine learning within current research methodologies can uncover overlooked publications, expediting the identification of promising research and potentially transforming dementia research by predicting real-world impact and guiding translational strategies.

arxiv情報

著者 Matilda Beinat,Julian Beinat,Mohammed Shoaib,Jorge Gomez Magenti
発行日 2024-01-10 13:25:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク