Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4


【タイトル】「Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4」

– 名称クローズメンバーシップ推論クエリを使用して、ChatGPTおよびGPT-4が知っていると思われる書籍をインファーするために、データ考古学を実施した。
– OpenAIのモデルが多数の著作権物を記憶していることがわかった。また、その記憶度合いは、それらの書籍の一部がウェブ上でどの程度頻繁に出現するかに関連している。
– これらのモデルが未知の書籍を記憶する能力は、文化分析の測定妥当性の評価を複雑にし、テストデータを汚染する。実験によって、モデルが記憶された書籍よりも記憶されていない書籍に対してはるかによい成績を残すことがわかった。
– この結果は、トレーニングデータが明らかなオープンなモデルの事例を支持するものである。


In this work, we carry out a data archaeology to infer books that are known to ChatGPT and GPT-4 using a name cloze membership inference query. We find that OpenAI models have memorized a wide collection of copyrighted materials, and that the degree of memorization is tied to the frequency with which passages of those books appear on the web. The ability of these models to memorize an unknown set of books complicates assessments of measurement validity for cultural analytics by contaminating test data; we show that models perform much better on memorized books than on non-memorized books for downstream tasks. We argue that this supports a case for open models whose training data is known.


著者 Kent K. Chang,Mackenzie Cramer,Sandeep Soni,David Bamman
発行日 2023-04-28 22:35:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク