A Data-centric Framework for Improving Domain-specific Machine Reading Comprehension Datasets

要約

タイトル:ドメイン特定の機械読解データセットの向上のためのデータ中心のフレームワーク

要約:
– 低品質のデータは、高リスクのアプリケーションにおいてダウンストリームの問題を引き起こす可能性がある。
– データ中心アプローチは、モデルのパフォーマンスを向上させるためにデータセットの品質を向上させることに力点を置く。
– 一般的な目的の大規模言語モデル(LLM)のトレーニングにも、通常はサイズが小さく、多くのドメイン専門家を参加させることが費用がかかるため、ドメイン特定のモデルのトレーニングデータの高品質化が重要である。
– 本論文では、元のデータセットの品質を向上させるためのフレームワークを提案する。
– 提案されたフレームワークをバイオメドの4つのデータセットに適用し、バックトランスレーションを使用して元のデータセットの品質を向上させた場合、BioASQデータセットのリトリーバモデル/リーダーモデルのファインチューニングにおいて、相対的に最大33%/ 40%の改善を示した。

要約(オリジナル)

Low-quality data can cause downstream problems in high-stakes applications. Data-centric approach emphasizes on improving dataset quality to enhance model performance. High-quality datasets are needed for general-purpose Large Language Models (LLMs) training, as well as for domain-specific models, which are usually small in size as it is costly to engage a large number of domain experts for their creation. Thus, it is vital to ensure high-quality domain-specific training data. In this paper, we propose a framework for enhancing the data quality of original datasets. We applied the proposed framework to four biomedical datasets and showed relative improvement of up to 33%/40% for fine-tuning of retrieval/reader models on the BioASQ dataset when using back translation to enhance the original dataset quality.

arxiv情報

著者 Iva Bojic,Josef Halim,Verena Suharman,Sreeja Tar,Qi Chwen Ong,Duy Phung,Mathieu Ravaut,Shafiq Joty,Josip Car
発行日 2023-04-02 08:26:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク