要約
機械読解 (MRC) は NLP における長年の問題であり、トランスフォーマー ベースの言語モデルである BERT ファミリの最近の導入により、解決まで長い道のりを歩んできました。
しかし、残念ながら、一般的なテキスト コーパスでトレーニングされた BERT バリアントをドメイン固有のテキストに適用すると、ドメインのシフト、つまりトレーニング データと下流のアプリケーション データの間のジャンル/主題の不一致により、必然的にパフォーマンスが低下します。
ナレッジ グラフは、オープンまたはクローズド ドメイン情報のリザーバとして機能し、これまでの研究では、ナレッジ グラフをドメイン固有のアプリケーションにおける汎用変圧器の性能向上に使用できることが示されています。
既存の研究に基づいて、ナレッジ グラフから抽出されたエンベディングを事前トレーニング済み言語モデル (LM) のエンベディング空間と位置合わせして統合するための多層パーセプトロン (MLP) を使用する方法を紹介します。
アライメントされた埋め込みをオープンドメイン LM の BERT および RoBERTa と融合し、スパン検出 (COVID-QA) と多肢選択質問 (PubMedQA) という 2 つの MRC タスクに合わせて微調整します。
COVID-QA データセットでは、Exact Match (EM) メトリクスによって証明されるように、私たちのアプローチにより、これらのモデルがドメイン固有の対応物である Bio/Sci-BERT と同様に実行できることがわかります。
PubMedQA に関しては、領域固有のモデルと比べて F1 が比較的同じままである一方で、全体的な精度の向上が観察されています。
要約(オリジナル)
Machine Reading Comprehension (MRC) has been a long-standing problem in NLP and, with the recent introduction of the BERT family of transformer based language models, it has come a long way to getting solved. Unfortunately, however, when BERT variants trained on general text corpora are applied to domain-specific text, their performance inevitably degrades on account of the domain shift i.e. genre/subject matter discrepancy between the training and downstream application data. Knowledge graphs act as reservoirs for either open or closed domain information and prior studies have shown that they can be used to improve the performance of general-purpose transformers in domain-specific applications. Building on existing work, we introduce a method using Multi-Layer Perceptrons (MLPs) for aligning and integrating embeddings extracted from knowledge graphs with the embeddings spaces of pre-trained language models (LMs). We fuse the aligned embeddings with open-domain LMs BERT and RoBERTa, and fine-tune them for two MRC tasks namely span detection (COVID-QA) and multiple-choice questions (PubMedQA). On the COVID-QA dataset, we see that our approach allows these models to perform similar to their domain-specific counterparts, Bio/Sci-BERT, as evidenced by the Exact Match (EM) metric. With regards to PubMedQA, we observe an overall improvement in accuracy while the F1 stays relatively the same over the domain-specific models.
arxiv情報
著者 | Saptarshi Sengupta,Connor Heaton,Prasenjit Mitra,Soumalya Sarkar |
発行日 | 2024-01-15 21:43:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google