要約
言語モデル (LM) は、医学や法律などの機密分野を含むテキストの要約において優れたパフォーマンスを示しています。
これらの設定では、ソース文書に含まれる個人識別情報 (PII) が概要に漏洩しないことが重要です。
これまでの取り組みは主に、LM がどのようにしてトレーニング データから PII を誤って導き出す可能性があるかを研究することに焦点を当ててきました。
ただし、非プライベートなソース文書を考慮して、LM がどの程度プライバシーを保護する要約を提供できるかはまだ調査されていません。
この論文では、サイズとファミリーが異なる 2 つの密閉型 LM と 3 つの開放型 LM について包括的な研究を実行します。
私たちは、3 つのドメインにわたるさまざまな要約データセットにわたって、プライバシー保護のためのプロンプトと微調整戦略を実験しています。
人間による評価を含む広範な定量的および定性的分析により、LM は概要に関する PII 漏洩を防ぐことができないことが多く、現在広く使用されている指標では状況依存のプライバシー リスクを把握できないことが示されています。
要約(オリジナル)
Language models (LMs) have shown outstanding performance in text summarization including sensitive domains such as medicine and law. In these settings, it is important that personally identifying information (PII) included in the source document should not leak in the summary. Prior efforts have mostly focused on studying how LMs may inadvertently elicit PII from training data. However, to what extent LMs can provide privacy-preserving summaries given a non-private source document remains under-explored. In this paper, we perform a comprehensive study across two closed- and three open-weight LMs of different sizes and families. We experiment with prompting and fine-tuning strategies for privacy-preservation across a range of summarization datasets across three domains. Our extensive quantitative and qualitative analysis including human evaluation shows that LMs often cannot prevent PII leakage on their summaries and that current widely-used metrics cannot capture context dependent privacy risks.
arxiv情報
著者 | Anthony Hughes,Nikolaos Aletras,Ning Ma |
発行日 | 2024-12-16 18:08:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google