Using Weak Supervision and Data Augmentation in Question Answering

要約

新型コロナウイルス感染症(COVID-19)のパンデミックの発生により、疾患特有の質問にタイムリーに答えるために生物医学文献にアクセスする必要性が強調されました。
パンデミックの初期に私たちが直面した最大の課題の 1 つは、質問応答 (QA) 用の機械学習モデルのトレーニングに使用できる、新型コロナウイルス感染症に関する査読済みの生物医学論文が不足していたことでした。
この論文では、ディープ ニューラル ネットワーク QA モデルのトレーニングにおいて弱い監視とデータ拡張が果たす役割を探ります。
まず、情報検索アルゴリズム BM25 を使用して学術論文の構造化要約から自動的に生成されたラベルが、抽出的 QA モデルをトレーニングするための弱い監視信号を提供するかどうかを調査します。
また、生物医学分野の専門家からの注釈付きデータがない場合でも、clinicaltrials.gov スキーマと論文の構造化要約に基づいた情報検索技術を使用して、新しい QA ペアを厳選します。
さらに、単語の形態や意味の変動を考慮して、語彙データベースなどの外部ソースからの言語特徴を使用してディープ ニューラル ネットワーク モデルのトレーニング データを強化することを検討します。
トレーニング データをより効果的に活用するために、カリキュラム学習をドメイン適応に適用し、QA ペアの特性に基づいて段階的に QA モデルを微調整します。
私たちは、新型コロナウイルス感染症に関する質問に答えるシステムの中核となる QA モデルのコンテキストでメソッドを評価します。

要約(オリジナル)

The onset of the COVID-19 pandemic accentuated the need for access to biomedical literature to answer timely and disease-specific questions. During the early days of the pandemic, one of the biggest challenges we faced was the lack of peer-reviewed biomedical articles on COVID-19 that could be used to train machine learning models for question answering (QA). In this paper, we explore the roles weak supervision and data augmentation play in training deep neural network QA models. First, we investigate whether labels generated automatically from the structured abstracts of scholarly papers using an information retrieval algorithm, BM25, provide a weak supervision signal to train an extractive QA model. We also curate new QA pairs using information retrieval techniques, guided by the clinicaltrials.gov schema and the structured abstracts of articles, in the absence of annotated data from biomedical domain experts. Furthermore, we explore augmenting the training data of a deep neural network model with linguistic features from external sources such as lexical databases to account for variations in word morphology and meaning. To better utilize our training data, we apply curriculum learning to domain adaptation, fine-tuning our QA model in stages based on characteristics of the QA pairs. We evaluate our methods in the context of QA models at the core of a system to answer questions about COVID-19.

arxiv情報

著者 Chumki Basu,Himanshu Garg,Allen McIntosh,Sezai Sablak,John R. Wullert II
発行日 2023-09-28 05:16:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク