PIIvot: A Lightweight NLP Anonymization Framework for Question-Anchored Tutoring Dialogues

要約

個人的に識別可能な情報(PII)匿名化は、多くのオープンサイエンスデータ共有イニシアチブに障壁をもたらすハイステークスタスクです。
PIIの識別は近年大きな進歩を遂げていますが、実際にはエラーのしきい値とリコール/精度のトレードオフは、これらの匿名化パイプラインの取り込みを依然として制限しています。
PIIVOTは、PII検出問題を簡素化するためにデータコンテキストの知識を活用するPII匿名化の軽量なフレームワークです。
その有効性を実証するために、品質教育対話データの需要をサポートするために、この種の最大のオープンソースの実世界の個別指導データセットであるQATD-2Kも貢献しています。

要約(オリジナル)

Personally identifiable information (PII) anonymization is a high-stakes task that poses a barrier to many open-science data sharing initiatives. While PII identification has made large strides in recent years, in practice, error thresholds and the recall/precision trade-off still limit the uptake of these anonymization pipelines. We present PIIvot, a lighter-weight framework for PII anonymization that leverages knowledge of the data context to simplify the PII detection problem. To demonstrate its effectiveness, we also contribute QATD-2k, the largest open-source real-world tutoring dataset of its kind, to support the demand for quality educational dialogue data.

arxiv情報

著者 Matthew Zent,Digory Smith,Simon Woodhead
発行日 2025-05-22 17:22:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク