Whose Text Is It Anyway? Exploring BigCode, Intellectual Property, and Ethics


タイトル:Whose Text Is It Anyway? Exploring BigCode, Intellectual Property, and Ethics

– 大規模言語モデルを用いた人工知能(AI)や生成型のライティングツールは、コンテンツを認識、要約、翻訳、予測することができる。
– この論文では、大規模言語モデルのトレーニングに使用されるオープンデータセットの著作権について考察する。
– オープンデータセットでトレーニングされた大規模言語モデルが、使用されたデータの著作権をどのように回避するかを問題提起する。
– ソフトウェア著作権を定義し、その歴史を追跡する。
– GitHub Copilotを現代的なケーススタディとして使用して、ソフトウェア著作権に挑戦する。
– 最終的に、生成型のライティングアシスタントが著作権に対して作成する障害と、開発者、ソフトウェア法律専門家、一般ユーザーが考慮すべき知的なLLM供給されるライティングツールのコンテキストにおける著作権分析のための実用的なロードマップを提供する。


Intelligent or generative writing tools rely on large language models that recognize, summarize, translate, and predict content. This position paper probes the copyright interests of open data sets used to train large language models (LLMs). Our paper asks, how do LLMs trained on open data sets circumvent the copyright interests of the used data? We start by defining software copyright and tracing its history. We rely on GitHub Copilot as a modern case study challenging software copyright. Our conclusion outlines obstacles that generative writing assistants create for copyright, and offers a practical road map for copyright analysis for developers, software law experts, and general users to consider in the context of intelligent LLM-powered writing tools.


著者 Madiha Zahrah Choksi,David Goedicke
発行日 2023-04-06 03:09:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CY, K.4.1 パーマリンク