要約
この論文では、ドメインドリフトの下で大規模言語モデル (LLM) を使用した抽出的質問応答 (EQA) を調査します。つまり、LLM は、ドメイン内を追加することなく、医学や法律などの特定の知識を必要とするドメインにゼロショット方式で一般化できるかどうかを調査します。
トレーニング?
この目的を達成するために、私たちはパフォーマンスのギャップを経験的に説明する一連の実験を考案しました。
私たちの調査結果は次のことを示唆しています: (a) LLM は、長い回答範囲を取得するなど、クローズド ドメインのデータセット要求に苦労しています。
(b) 特定の LLM は、全体的なパフォーマンスが優れているにもかかわらず、前処理の決定に結び付けるドメイン固有の語義を区別するなど、基本的な要件を満たすのに弱点を示します。
(c) モデルパラメータのスケーリングは、クロスドメインの一般化に必ずしも有効であるとは限りません。
(d) クローズド ドメイン データセットはオープン ドメイン EQA データセットとは量的に大きく異なり、現在の LLM はそれらのデータセットに対処するのに苦労しています。
私たちの調査結果は、既存の LLM を改善するための重要な方向性を指摘しています。
要約(オリジナル)
In this paper, we investigate Extractive Question Answering (EQA) with Large Language Models (LLMs) under domain drift, i.e., can LLMs generalize to domains that require specific knowledge such as medicine and law in a zero-shot fashion without additional in-domain training? To this end, we devise a series of experiments to explain the performance gap empirically. Our findings suggest that: (a) LLMs struggle with dataset demands of closed domains such as retrieving long answer spans; (b) Certain LLMs, despite showing strong overall performance, display weaknesses in meeting basic requirements as discriminating between domain-specific senses of words which we link to pre-processing decisions; (c) Scaling model parameters is not always effective for cross domain generalization; and (d) Closed-domain datasets are quantitatively much different than open-domain EQA datasets and current LLMs struggle to deal with them. Our findings point out important directions for improving existing LLMs.
arxiv情報
著者 | Saptarshi Sengupta,Wenpeng Yin,Preslav Nakov,Shreya Ghosh,Suhang Wang |
発行日 | 2024-12-12 13:48:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google