要約
大規模な言語モデルの開発における重要な進歩は、人間とAIの生成されたテキストの区別の曖昧さに貢献しています。
AIに生成されたテキストの広がりの増加とそれを検出することの難しさは、私たちの社会に新たな課題をもたらします。
この論文では、特定の入力テキストが人間またはAIによって生成され、テキストの著者を発表するように設計されたトリプレットネットワークのコントラスト学習フレームワークであるWhosaiを提案することにより、AIの生成テキストを検出および帰属させる問題に取り組みます。
ほとんどの既存のアプローチとは異なり、提案されたフレームワークは、複数のジェネレーターから一度にセマンティックな類似性表現を学習するために考案されており、したがって、検出タスクと属性タスクの両方を等しく処理します。
さらに、WHOSAIはモデルに依存しており、新しいAIテキストジェネレーションモデルのリリースに対して、生成されたインスタンスをフレームワークによって学習した埋め込みスペースに組み込むことにより、スケーラブルです。
200Kニュース記事のチューリングベンチベンチマークの実験結果は、提案されたフレームワークがチューリングテストと著者の帰属タスクの両方で優れた結果を達成し、チューリングベンチベンチマークリーダーボードにリストされているすべての方法を上回ることを示しています。
要約(オリジナル)
The significant progress in the development of Large Language Models has contributed to blurring the distinction between human and AI-generated text. The increasing pervasiveness of AI-generated text and the difficulty in detecting it poses new challenges for our society. In this paper, we tackle the problem of detecting and attributing AI-generated text by proposing WhosAI, a triplet-network contrastive learning framework designed to predict whether a given input text has been generated by humans or AI and to unveil the authorship of the text. Unlike most existing approaches, our proposed framework is conceived to learn semantic similarity representations from multiple generators at once, thus equally handling both detection and attribution tasks. Furthermore, WhosAI is model-agnostic and scalable to the release of new AI text-generation models by incorporating their generated instances into the embedding space learned by our framework. Experimental results on the TuringBench benchmark of 200K news articles show that our proposed framework achieves outstanding results in both the Turing Test and Authorship Attribution tasks, outperforming all the methods listed in the TuringBench benchmark leaderboards.
arxiv情報
著者 | Lucio La Cava,Davide Costa,Andrea Tagarelli |
発行日 | 2025-03-17 09:19:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google