NLI4CT: Multi-Evidence Natural Language Inference for Clinical Trial Reports

要約

臨床上の決定をサポートする医学的証拠をどのように解釈して取得できるでしょうか?
長年にわたって蓄積された臨床試験レポート (CTR) には、個別化医療の開発に不可欠な情報が含まれています。
ただし、実験的治療の最良の証拠を見つけるために 400,000 件を超える臨床試験レポートを手動で検査することは事実上不可能です。
自然言語推論 (NLI) は、テキスト含意のスケーラブルな計算を可能にすることで、この問題に対する潜在的な解決策を提供します。
しかし、既存の NLI モデルは生物医学コーパスではあまり機能せず、以前に公開されたデータセットは CTR に関する推論の複雑さを完全に捉えることができませんでした。
この研究では、CTR の推論のための NLI の研究を進めるための新しいリソースを紹介します。
このリソースには 2 つの主要なタスクが含まれています。
まず、自然言語ステートメントと CTR の間の推論関係を決定します。
次に、予測された関係を正当化する裏付けとなる事実を取得します。
これらのタスクに対して注釈が付けられた、2400 のステートメントと CTR のコーパスである NLI4CT を提供します。
このコーパスのベースラインは既存の NLI モデルの限界を明らかにしており、6 つの最先端の NLI モデルは最大 F1 スコア 0.627 を達成しています。
私たちの知る限り、完全な CTR の解釈をカバーするタスクを設計したのは私たちが初めてです。
この挑戦的なデータセットのさらなる研究を促進するために、ベースライン実験を再現するためのコーパス、競争リーダーボード、Web サイト、およびコードを https://github.com/ai-systems/nli4ct から入手できるようにしました。

要約(オリジナル)

How can we interpret and retrieve medical evidence to support clinical decisions? Clinical trial reports (CTR) amassed over the years contain indispensable information for the development of personalized medicine. However, it is practically infeasible to manually inspect over 400,000+ clinical trial reports in order to find the best evidence for experimental treatments. Natural Language Inference (NLI) offers a potential solution to this problem, by allowing the scalable computation of textual entailment. However, existing NLI models perform poorly on biomedical corpora, and previously published datasets fail to capture the full complexity of inference over CTRs. In this work, we present a novel resource to advance research on NLI for reasoning on CTRs. The resource includes two main tasks. Firstly, to determine the inference relation between a natural language statement, and a CTR. Secondly, to retrieve supporting facts to justify the predicted relation. We provide NLI4CT, a corpus of 2400 statements and CTRs, annotated for these tasks. Baselines on this corpus expose the limitations of existing NLI models, with 6 state-of-the-art NLI models achieving a maximum F1 score of 0.627. To the best of our knowledge, we are the first to design a task that covers the interpretation of full CTRs. To encourage further work on this challenging dataset, we make the corpus, competition leaderboard, website and code to replicate the baseline experiments available at: https://github.com/ai-systems/nli4ct

arxiv情報

著者 Maël Jullien,Marco Valentino,Hannah Frost,Paul O’Regan,Donal Landers,André Freitas
発行日 2023-10-26 13:02:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク