Learning to Generate Novel Scientific Directions with Contextualized Literature-based Discovery

要約

Literature-Based Discovery (LBD) は、論文をマイニングして仮説を生成することによって、新しい科学的知識を発見することを目的としています。
標準的な LBD は、離散概念間のペア関係 (例: 薬物と病気の関係) を予測することに限定されています。
また、LBD は、実験設定 (例: 薬物が評価される特定の患者集団) や人間の科学者が考慮する背景知識や動機 (例: 特定の副作用のない薬物候補を見つけるため) などの重要な状況を無視します。
私たちは、文脈化 LBD (C-LBD) の新しい定式化によってこれらの制限に対処します。つまり、仮説検索空間を制御するコンテキストに基づいて科学的仮説を自然言語で生成します。
引用と知識グラフ関係の異種ネットワークからの「インスピレーション」の検索を使用した新しいモデリング フレームワークを提示し、論文から派生した新しいデータセットを作成します。
自動評価と人間による評価では、強力な大規模言語モデル (LLM) を含め、モデルはベースラインよりも改善されていますが、新しい科学的知識を生み出すマシンを構築する上での課題も明らかになります。

要約(オリジナル)

Literature-Based Discovery (LBD) aims to discover new scientific knowledge by mining papers and generating hypotheses. Standard LBD is limited to predicting pairwise relations between discrete concepts (e.g., drug-disease links). LBD also ignores critical contexts like experimental settings (e.g., a specific patient population where a drug is evaluated) and background knowledge and motivations that human scientists consider (e.g., to find a drug candidate without specific side effects). We address these limitations with a novel formulation of contextualized-LBD (C-LBD): generating scientific hypotheses in natural language, while grounding them in a context that controls the hypothesis search space. We present a new modeling framework using retrieval of “inspirations” from a heterogeneous network of citations and knowledge graph relations, and create a new dataset derived from papers. In automated and human evaluations, our models improve over baselines, including powerful large language models (LLMs), but also reveal challenges on the road to building machines that generate new scientific knowledge.

arxiv情報

著者 Qingyun Wang,Doug Downey,Heng Ji,Tom Hope
発行日 2023-05-23 17:12:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク