The Rise of AI-Generated Content in Wikipedia

要約

一般的な情報ソースにおける AI 生成コンテンツの増加により、説明責任、正確性、バイアスの増幅について大きな懸念が生じています。
消費者に直接影響を与えるだけでなく、このコンテンツが広範に存在することにより、インターネットの大規模な検索での言語モデルのトレーニングの長期的な実行可能性に疑問が生じます。
私たちは、独自の AI 検出器である GPTZero と、オープンソースの代替手段である Binoculars を使用して、最近作成された Wikipedia ページ内に AI によって生成されたコンテンツが存在するかどうかの下限を設定します。
どちらの検出器も、GPT-3.5 のリリース前と比較して、最近のページで AI によって生成されたコンテンツが著しく増加していることを明らかにしています。
GPT-3.5 以前の記事で 1% の誤検知率を達成するようにしきい値が調整されているため、検出器は新しく作成された英語版の Wikipedia 記事の 5% 以上に AI 生成としてフラグを立てますが、ドイツ語、フランス語、イタリア語の記事の割合は低くなります。
フラグが立てられたウィキペディアの記事は通常、質が低く、自己宣伝的であったり、物議を醸しているトピックに関する特定の視点に偏ったものであることがよくあります。

要約(オリジナル)

The rise of AI-generated content in popular information sources raises significant concerns about accountability, accuracy, and bias amplification. Beyond directly impacting consumers, the widespread presence of this content poses questions for the long-term viability of training language models on vast internet sweeps. We use GPTZero, a proprietary AI detector, and Binoculars, an open-source alternative, to establish lower bounds on the presence of AI-generated content in recently created Wikipedia pages. Both detectors reveal a marked increase in AI-generated content in recent pages compared to those from before the release of GPT-3.5. With thresholds calibrated to achieve a 1% false positive rate on pre-GPT-3.5 articles, detectors flag over 5% of newly created English Wikipedia articles as AI-generated, with lower percentages for German, French, and Italian articles. Flagged Wikipedia articles are typically of lower quality and are often self-promotional or partial towards a specific viewpoint on controversial topics.

arxiv情報

著者 Creston Brooks,Samuel Eggert,Denis Peskoff
発行日 2024-10-10 15:36:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク