Wikipedia in the Era of LLMs: Evolution and Risks

要約

この論文では、ウィキペディアに対する大規模な言語モデル(LLMS)の影響の徹底的な分析を提示し、既存のデータを介したウィキペディアの進化を調べ、シミュレーションを使用して潜在的なリスクを調査します。
まず、ページビューと記事の内容を分析して、ウィキペディアの最近の変更を調査し、LLMSの影響を評価します。
その後、LLMSがウィキペディアに関連するさまざまな自然言語処理(NLP)タスクにどのように影響するかを評価します。
私たちの調査結果とシミュレーション結果は、ウィキペディアの記事がLLMSの影響を受けており、特定のカテゴリで約1%〜2%の影響を受けていることが明らかになりました。
ウィキペディアに基づく機械翻訳ベンチマークがLLMSの影響を受けた場合、モデルのスコアが膨らむ可能性があり、モデル間の比較結果もシフトする可能性があります。
さらに、知識ベースがLLM生成コンテンツによって汚染されると、RAGの有効性が低下する可能性があります。
LLMはウィキペディアの言語と知識の構造をまだ完全に変更していませんが、私たちの経験的調査結果は、潜在的な将来のリスクを慎重に検討する必要性を示していると考えています。

要約(オリジナル)

In this paper, we present a thorough analysis of the impact of Large Language Models (LLMs) on Wikipedia, examining the evolution of Wikipedia through existing data and using simulations to explore potential risks. We begin by analyzing page views and article content to study Wikipedia’s recent changes and assess the impact of LLMs. Subsequently, we evaluate how LLMs affect various Natural Language Processing (NLP) tasks related to Wikipedia, including machine translation and retrieval-augmented generation (RAG). Our findings and simulation results reveal that Wikipedia articles have been influenced by LLMs, with an impact of approximately 1%-2% in certain categories. If the machine translation benchmark based on Wikipedia is influenced by LLMs, the scores of the models may become inflated, and the comparative results among models might shift as well. Moreover, the effectiveness of RAG might decrease if the knowledge base becomes polluted by LLM-generated content. While LLMs have not yet fully changed Wikipedia’s language and knowledge structures, we believe that our empirical findings signal the need for careful consideration of potential future risks.

arxiv情報

著者 Siming Huang,Yuliang Xu,Mingmeng Geng,Yao Wan,Dongping Chen
発行日 2025-03-04 18:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク