Retrieve to Explain: Evidence-driven Predictions with Language Models

要約

機械学習モデル、特に言語モデルは、内省が難しいことで知られています。
ブラックボックス モデルは、モデルのトレーニングの問題と有害なバイアスの両方を隠すことができます。
人間参加型のプロセスでは、不透明な予測によって信頼性の欠如が引き起こされ、モデルが効果的に機能する場合でもその影響が制限される可能性があります。
これらの問題に対処するために、Retrieve to Explain (R2E) を導入します。
R2E は、文書コーパス内の証拠に基づいて、研究の質問に対する事前に定義された一連の可能な回答の中から優先順位を付ける検索ベースの言語モデルです。Shapley 値を使用して、最終的な予測に対する証拠の相対的な重要性を特定します。
R2E は、再トレーニングすることなく新しい証拠に適応し、テンプレートを通じて構造化データを自然言語に組み込むことができます。
私たちは、出版された科学文献からの薬物標的同定のユースケースを評価し、このモデルが臨床試験結果の予測において業界標準の遺伝学に基づくアプローチよりも優れていることを示します。

要約(オリジナル)

Machine learning models, particularly language models, are notoriously difficult to introspect. Black-box models can mask both issues in model training and harmful biases. For human-in-the-loop processes, opaque predictions can drive lack of trust, limiting a model’s impact even when it performs effectively. To address these issues, we introduce Retrieve to Explain (R2E). R2E is a retrieval-based language model that prioritizes amongst a pre-defined set of possible answers to a research question based on the evidence in a document corpus, using Shapley values to identify the relative importance of pieces of evidence to the final prediction. R2E can adapt to new evidence without retraining, and incorporate structured data through templating into natural language. We assess on the use case of drug target identification from published scientific literature, where we show that the model outperforms an industry-standard genetics-based approach on predicting clinical trial outcomes.

arxiv情報

著者 Ravi Patel,Angus Brayne,Rogier Hintzen,Daniel Jaroslawicz,Georgiana Neculae,Dane Corneil
発行日 2024-02-06 15:13:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク