The (Ab)use of Open Source Code to Train Large Language Models

要約

近年、大規模言語モデル (LLM) は、人間のようなテキストを生成する能力と、ソフトウェア エンジニアリングなどのさまざまな分野での潜在的なアプリケーションにより、大きな人気を得ています。
コードの LLM は、通常、インターネットからスクレイピングされたサニタイズされていないソース コードの大規模なコーパスでトレーニングされます。
これらのデータセットの内容は、多くの場合逐語的にモデルによって記憶および出力されます。
この作業では、暗記のセキュリティ、プライバシー、およびライセンスの意味について説明します。
コピーレフト コードを使用して LLM をトレーニングすることが、法的および倫理的なジレンマである理由を議論します。
最後に、この問題に対処するための 4 つの実用的な推奨事項を示します。

要約(オリジナル)

In recent years, Large Language Models (LLMs) have gained significant popularity due to their ability to generate human-like text and their potential applications in various fields, such as Software Engineering. LLMs for Code are commonly trained on large unsanitized corpora of source code scraped from the Internet. The content of these datasets is memorized and emitted by the models, often in a verbatim manner. In this work, we will discuss the security, privacy, and licensing implications of memorization. We argue why the use of copyleft code to train LLMs is a legal and ethical dilemma. Finally, we provide four actionable recommendations to address this issue.

arxiv情報

著者 Ali Al-Kaswan,Maliheh Izadi
発行日 2023-02-27 11:34:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク