Grandma Karl is 27 years old — research agenda for pseudonymization of research data


研究データのアクセシビリティは、多くの研究分野の進歩にとって重要ですが、テキスト データには、名前や政治的意見などの個人情報や機密情報が含まれているため、共有できないことがよくあります。
一般データ保護規則 (GDPR) は、研究データへのオープン アクセスを確保するためのソリューションとして仮名化を提案していますが、研究データの操作に仮名化を採用する前に、アプローチとしての仮名化について詳しく学ぶ必要があります。
最近認可された、カールおばあちゃん 27 歳の仮名化に関するプロジェクトは、まさにこれらの課題に対処しています。


Accessibility of research data is critical for advances in many research fields, but textual data often cannot be shared due to the personal and sensitive information which it contains, e.g names or political opinions. General Data Protection Regulation (GDPR) suggests pseudonymization as a solution to secure open access to research data, but we need to learn more about pseudonymization as an approach before adopting it for manipulation of research data. This paper outlines a research agenda within pseudonymization, namely need of studies into the effects of pseudonymization on unstructured data in relation to e.g. readability and language assessment, as well as the effectiveness of pseudonymization as a way of protecting writer identity, while also exploring different ways of developing context-sensitive algorithms for detection, labelling and replacement of personal information in unstructured data. The recently granted project on pseudonymization Grandma Karl is 27 years old addresses exactly those challenges.


著者 Elena Volodina,Simon Dobnik,Therese Lindström Tiedemann,Xuan-Son Vu
発行日 2023-08-30 16:04:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL パーマリンク