Distinguishing ChatGPT(-3.5, -4)-generated and human-written papers through Japanese stylometric analysis

要約

タイトル:日本語の文体特徴によるChatGPT生成と人間による論文の区別

要約:

– ChatGPTはOpenAIが提供するGPT-3.5およびGPT-4を備えたテキスト生成の人工知能であり、世界中で注目を集めている。
– 本研究では、まず、GPT(-3.5および-4)によって生成された日本語の文体特徴と人間によって書かれた文体特徴を比較した。
– 大学の48の著者によって書かれた72の学術論文、GPT-3.5によって生成された72のテキスト、およびGPT-4によってタイトルに基づいて生成された72のテキストに焦点を当て、4つの文体特徴:品詞のbigram、助詞のbigram、コンマの位置、機能語の比率に関する多次元尺度法を実行した。
– MDSにより、GPT(-3.5および-4)および人間の各文体特徴で明確な分布が示された。GPT-4はより多くのパラメータを持つため、GPT-3.5よりも強力であるが、両方の分布は重なる可能性があることがわかった。
– 2つ目に、日本語の文体特徴に焦点を当ててGPTと人間の2つのクラスのRF分類器のパフォーマンスを検証した。機能語の比率に注目したRF分類器は98.1%の精度を達成した。すべての文体特徴に注目したRF分類器は、すべての性能指数(正解率、再現率、適合率、F1スコア)で100%を達成した。
– 本研究は、日本語に限定した段階では、人間はChatGPTと区別できることを示した。

要約(オリジナル)

Text-generative artificial intelligence (AI), including ChatGPT, equipped with GPT-3.5 and GPT-4, from OpenAI, has attracted considerable attention worldwide. In this study, first, we compared Japanese stylometric features generated by GPT (-3.5 and -4) and those written by humans. In this work, we performed multi-dimensional scaling (MDS) to confirm the distributions of 216 texts of three classes (72 academic papers written by 36 single authors, 72 texts generated by GPT-3.5, and 72 texts generated by GPT-4 on the basis of the titles of the aforementioned papers) focusing on the following stylometric features: (1) bigrams of parts-of-speech, (2) bigram of postpositional particle words, (3) positioning of commas, and (4) rate of function words. MDS revealed distinct distributions at each stylometric feature of GPT (-3.5 and -4) and human. Although GPT-4 is more powerful than GPT-3.5 because it has more parameters, both GPT (-3.5 and -4) distributions are likely to overlap. These results indicate that although the number of parameters may increase in the future, AI-generated texts may not be close to that written by humans in terms of stylometric features. Second, we verified the classification performance of random forest (RF) for two classes (GPT and human) focusing on Japanese stylometric features. This study revealed the high performance of RF in each stylometric feature. Furthermore, the RF classifier focusing on the rate of function words achieved 98.1% accuracy. The RF classifier focusing on all stylometric features reached 100% in terms of all performance indexes (accuracy, recall, precision, and F1 score). This study concluded that at this stage we human discriminate ChatGPT from human limited to Japanese language.

arxiv情報

著者 Wataru Zaitsu,Mingzhe Jin
発行日 2023-04-13 00:50:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク