Grandma Karl is 27 years old — research agenda for pseudonymization of research data

要約

研究データのアクセシビリティは、多くの研究分野の進歩にとって重要ですが、テキスト データには、名前や政治的意見などの個人情報や機密情報が含まれているため、共有できないことがよくあります。
一般データ保護規則 (GDPR) は、研究データへのオープン アクセスを確保するためのソリューションとして仮名化を提案していますが、研究データの操作に仮名化を採用する前に、アプローチとしての仮名化について詳しく学ぶ必要があります。
この論文では、仮名化における研究課題、つまり、例えばデータに関連した非構造化データに対する仮名化の影響に関する研究の必要性について概説します。
読みやすさや言語評価、書き手の身元を保護する方法としての仮名化の有効性などについて研究するとともに、非構造化データ内の個人情報の検出、ラベル付け、置換のための状況依存アルゴリズムを開発するさまざまな方法も検討しています。
最近認可された、カールおばあちゃん 27 歳の仮名化に関するプロジェクトは、まさにこれらの課題に対処しています。

要約(オリジナル)

Accessibility of research data is critical for advances in many research fields, but textual data often cannot be shared due to the personal and sensitive information which it contains, e.g names or political opinions. General Data Protection Regulation (GDPR) suggests pseudonymization as a solution to secure open access to research data, but we need to learn more about pseudonymization as an approach before adopting it for manipulation of research data. This paper outlines a research agenda within pseudonymization, namely need of studies into the effects of pseudonymization on unstructured data in relation to e.g. readability and language assessment, as well as the effectiveness of pseudonymization as a way of protecting writer identity, while also exploring different ways of developing context-sensitive algorithms for detection, labelling and replacement of personal information in unstructured data. The recently granted project on pseudonymization Grandma Karl is 27 years old addresses exactly those challenges.

arxiv情報

著者 Elena Volodina,Simon Dobnik,Therese Lindström Tiedemann,Xuan-Son Vu
発行日 2023-08-30 16:04:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク