AIDBench: A benchmark for evaluating the authorship identification capability of large language models

要約

大規模言語モデル (LLM) が急速に進歩し、日常生活に統合されるにつれて、LLM がもたらすプライバシー リスクに対する注目が高まっています。
私たちは、LLM が匿名テキストの作成者を特定するのに役立つ可能性がある特定のプライバシー リスクに焦点を当てています。このリスクは、匿名査読システムなどの現実世界のシステムにおける匿名性の有効性に疑問を投げかけています。
これらのリスクを調査するために、電子メール、ブログ、レビュー、記事、研究論文など、いくつかの著者識別データセットを組み込んだ新しいベンチマークである AIDBench を紹介します。
AIDBench は 2 つの評価方法を利用します。1 対 1 の著者識別。2 つのテキストが同じ著者によるものかどうかを判断します。
1 対多の著者識別。クエリ テキストと候補テキ​​ストのリストが与えられると、クエリ テキストと同じ著者によって書かれた可能性が最も高い候補を識別します。
また、特に入力長がモデルのコンテキスト ウィンドウを超える場合に、LLM の大規模な著者名識別機能を強化するための検索拡張生成 (RAG) ベースの手法を導入します。これにより、LLM を使用した著者名識別の新しいベースラインが確立されます。
AIDBench を使った実験では、LLM がランダムな確率をはるかに上回る確率で著者を正確に推測できることが実証され、これらの強力なモデルによってもたらされる新たなプライバシー リスクが明らかになりました。
ソースコードとデータは承認後に公開されます。

要約(オリジナル)

As large language models (LLMs) rapidly advance and integrate into daily life, the privacy risks they pose are attracting increasing attention. We focus on a specific privacy risk where LLMs may help identify the authorship of anonymous texts, which challenges the effectiveness of anonymity in real-world systems such as anonymous peer review systems. To investigate these risks, we present AIDBench, a new benchmark that incorporates several author identification datasets, including emails, blogs, reviews, articles, and research papers. AIDBench utilizes two evaluation methods: one-to-one authorship identification, which determines whether two texts are from the same author; and one-to-many authorship identification, which, given a query text and a list of candidate texts, identifies the candidate most likely written by the same author as the query text. We also introduce a Retrieval-Augmented Generation (RAG)-based method to enhance the large-scale authorship identification capabilities of LLMs, particularly when input lengths exceed the models’ context windows, thereby establishing a new baseline for authorship identification using LLMs. Our experiments with AIDBench demonstrate that LLMs can correctly guess authorship at rates well above random chance, revealing new privacy risks posed by these powerful models. The source code and data will be made publicly available after acceptance.

arxiv情報

著者 Zichen Wen,Dadi Guo,Huishuai Zhang
発行日 2024-11-20 11:41:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク