Are Large Language Models a Threat to Digital Public Goods? Evidence from Activity on Stack Overflow

要約

ChatGPT のような大規模な言語モデルは、さまざまなトピックに関する情報をユーザーに効率的に提供し、Web 検索やオンラインで人々に助けを求めることに代わる潜在的な手段を提供します。
しかし、ユーザーはプライベートにモデルと対話するため、これらのモデルは、人間が生成した公的に利用可能なデータと知識リソースの量を大幅に削減する可能性があります。
この置換は、将来のモデルのトレーニング データを保護する際に重大な問題を引き起こす可能性があります。
この研究では、コンピューター プログラミング向けの主要なオンライン Q&A プラットフォームである Stack Overflow でのアクティビティを分析することにより、ChatGPT のリリースによって人間が生成した Web 上のオープン データがどのように変化したかを調査します。
ChatGPT へのアクセスが制限されているロシアや中国のフォーラム、および ChatGPT の機能が低い同様の数学フォーラムと比べて、Stack Overflow での活動が大幅に減少していることがわかりました。
差分の差分モデルでは、スタック オーバーフローの毎週の投稿が 16\% 減少すると推定されています。
この影響は時間の経過とともに大きくなり、最も広く使用されているプログラミング言語に関連する投稿ほど大きくなります。
ChatGPT の後に作成された投稿は、以前と同様の投票スコアを獲得しており、ChatGPT が単に重複したコンテンツや低品質のコンテンツを置き換えているだけではないことを示唆しています。
これらの結果は、より多くのユーザーが質問に答えるために大規模な言語モデルを採用しており、より多くのトレーニング データがある言語ではスタック オーバーフローの代替として優れていることを示唆しています。
ChatGPT のようなモデルを使用すると、特定のプログラミングの問題を解決するのにより効率的になる可能性がありますが、その広範な採用と、その結果としての Web 上の公開交換からの移行により、将来的に人々とモデルが学習できるオープン データが制限されることになります。

要約(オリジナル)

Large language models like ChatGPT efficiently provide users with information about various topics, presenting a potential substitute for searching the web and asking people for help online. But since users interact privately with the model, these models may drastically reduce the amount of publicly available human-generated data and knowledge resources. This substitution can present a significant problem in securing training data for future models. In this work, we investigate how the release of ChatGPT changed human-generated open data on the web by analyzing the activity on Stack Overflow, the leading online Q\&A platform for computer programming. We find that relative to its Russian and Chinese counterparts, where access to ChatGPT is limited, and to similar forums for mathematics, where ChatGPT is less capable, activity on Stack Overflow significantly decreased. A difference-in-differences model estimates a 16\% decrease in weekly posts on Stack Overflow. This effect increases in magnitude over time, and is larger for posts related to the most widely used programming languages. Posts made after ChatGPT get similar voting scores than before, suggesting that ChatGPT is not merely displacing duplicate or low-quality content. These results suggest that more users are adopting large language models to answer questions and they are better substitutes for Stack Overflow for languages for which they have more training data. Using models like ChatGPT may be more efficient for solving certain programming problems, but its widespread adoption and the resulting shift away from public exchange on the web will limit the open data people and models can learn from in the future.

arxiv情報

著者 Maria del Rio-Chanona,Nadzeya Laurentsyeva,Johannes Wachs
発行日 2023-07-14 14:22:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.SI パーマリンク