要約
大規模言語モデル (LLM) と生成 AI は、コンピューターの研究と応用において変革的な役割を果たしてきました。
これらのモデルが著作権で保護されたデータを出力するかどうかについて論争が生じており、モデルのトレーニングに使用されたデータが著作権で保護されている場合に論争が起こる可能性があります。
LLM はトランスフォーマー ニューラル ネットワーク アーキテクチャに基づいて構築されており、ソフトマックス関数を使用するアテンションと呼ばれる数学的計算に依存します。
この論文では、大規模な言語モデルのトレーニングと最適化がソフトマックス回帰問題として見られることを示します。
次に、回帰関数による著作権データの生成を防ぐ方法で、ソフトマックス回帰を効率的に実行する方法を確立します。
これにより、著作権データの生成を回避する方法で大規模な言語モデルをトレーニングする理論的な方法が確立されます。
要約(オリジナル)
Large language models (LLMs) and generative AI have played a transformative role in computer research and applications. Controversy has arisen as to whether these models output copyrighted data, which can occur if the data the models are trained on is copyrighted. LLMs are built on the transformer neural network architecture, which in turn relies on a mathematical computation called Attention that uses the softmax function. In this paper, we show that large language model training and optimization can be seen as a softmax regression problem. We then establish a method of efficiently performing softmax regression, in a way that prevents the regression function from generating copyright data. This establishes a theoretical method of training large language models in a way that avoids generating copyright data.
arxiv情報
著者 | Timothy Chu,Zhao Song,Chiwun Yang |
発行日 | 2023-08-23 16:48:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google