Recipient Profiling: Predicting Characteristics from Messages

要約

著者プロファイリングの分野では、テキストによって性別や年齢など、著者に関する機密情報が誤って公開される可能性があることがわかっています。
これはプライバシーに関する重要な懸念を引き起こし、特にそのような情報を隠す方法の開発に関して文献で広く取り上げられています。
これらのテキストが実際には個人間で交換されるメッセージである場合、これで話が終わるわけではないと私たちは主張します。
実際、この場合、第二の当事者、つまり意図された受信者も関与するため、考慮する必要があります。
この研究では、受信者に影響を与える潜在的なプライバシー漏洩を調査します。つまり、受信者プロファイリングの問題を提案し、それに対処します。
私たちは、このようなタスクが公的にアクセス可能ないくつかのデータセット (https://huggingface.co/datasets/sileod/recipient_profiling) で実行可能であるという経験的証拠を提供します。
さらに、精度は低下しますが、学習したモデルを他のデータセットに転送できることを示します。

要約(オリジナル)

It has been shown in the field of Author Profiling that texts may inadvertently reveal sensitive information about their authors, such as gender or age. This raises important privacy concerns that have been extensively addressed in the literature, in particular with the development of methods to hide such information. We argue that, when these texts are in fact messages exchanged between individuals, this is not the end of the story. Indeed, in this case, a second party, the intended recipient, is also involved and should be considered. In this work, we investigate the potential privacy leaks affecting them, that is we propose and address the problem of Recipient Profiling. We provide empirical evidence that such a task is feasible on several publicly accessible datasets (https://huggingface.co/datasets/sileod/recipient_profiling). Furthermore, we show that the learned models can be transferred to other datasets, albeit with a loss in accuracy.

arxiv情報

著者 Martin Borquez,Mikaela Keller,Michael Perrot,Damien Sileo
発行日 2024-12-17 14:35:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68P20, 68T50, 94A60, cs.CL, H.3.3 パーマリンク