Data-Constrained Synthesis of Training Data for De-Identification

要約

臨床ドメインなどの多くの機密ドメインは、プライバシーリスクのために広く利用可能なデータセットを欠いています。
大規模な言語モデル(LLM)の生成能力の向上により、合成データセットは実行可能なパスを前進させました。
この研究では、臨床ドメインにLLMをドメインに適応させ、有能なエンコーダーベースのNERモデルを使用して個人を識別できる情報のために機械加算された合成臨床テキストを生成します。
合成コーパスは、合成NERモデルをトレーニングするために使用されます。
結果は、合成コーポラを使用したTraining NERモデルが予測パフォーマンスのわずかな低下のみが発生することを示しています。
このプロセスの限界は、スウェーデンとスペインの両方のデータを使用して、体系的なアブレーション研究で調査されています。
私たちの分析は、データ統合のためにLLMをドメインに適応させるのに小さなデータセットで十分であることを示しています。
代わりに、このプロセスの有効性は、元のデータを使用してトレーニングされた機械消費NERモデルのパフォーマンスをほぼ完全に条件としています。

要約(オリジナル)

Many sensitive domains — such as the clinical domain — lack widely available datasets due to privacy risks. The increasing generative capabilities of large language models (LLMs) have made synthetic datasets a viable path forward. In this study, we domain-adapt LLMs to the clinical domain and generate synthetic clinical texts that are machine-annotated with tags for personally identifiable information using capable encoder-based NER models. The synthetic corpora are then used to train synthetic NER models. The results show that training NER models using synthetic corpora incurs only a small drop in predictive performance. The limits of this process are investigated in a systematic ablation study — using both Swedish and Spanish data. Our analysis shows that smaller datasets can be sufficient for domain-adapting LLMs for data synthesis. Instead, the effectiveness of this process is almost entirely contingent on the performance of the machine-annotating NER models trained using the original data.

arxiv情報

著者 Thomas Vakili,Aron Henriksson,Hercules Dalianis
発行日 2025-02-20 16:09:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク