Playing with Words: Comparing the Vocabulary and Lexical Richness of ChatGPT and Humans

要約

GPT (Generative Pre-trained Transformer) などの人工知能 (AI) 生成言語モデルや ChatGPT などのツールの導入は、テキストの生成方法を変革する革命を引き起こしました。
これは多くの影響を及ぼします。たとえば、AI が生成したテキストが多くの分野でテキストのかなりの部分を占めるようになったため、これは読者の言語能力や、新しい AI ツールのトレーニングに影響を与えるでしょうか?
それは言語の進化に影響を与えるのでしょうか?
言語の 1 つの特定の側面、つまり単語に焦点を当てます。
ChatGPT などのツールを使用すると、特定のテキストを書くときに使用される語彙や語彙の豊富さ (文書または口頭発表で使用されるさまざまな単語の数として理解されます) が増加または減少しますか?
これは言葉にも影響を及ぼします。AI が生成したコンテンツに含まれていない言葉はますます人気がなくなり、最終的には失われる可能性があるからです。
この研究では、同じタスクを実行するときの ChatGPT と人間の語彙と語彙の豊富さの初期比較を実行します。
より詳細には、ChatGPT と人間が回答したさまざまな種類の質問に対する回答を含む 2 つのデータセットが使用され、分析の結果、ChatGPT は人間よりも使用する個別の単語が少なく、語彙の豊富さが低い傾向があることが示されました。
これらの結果は非常に予備的なものであり、より一般的な結論を引き出すには追加のデータセットと ChatGPT 構成を評価する必要があります。
したがって、ChatGPT やより広範な生成 AI ツールの使用が、さまざまな種類のテキストや言語の語彙や語彙の豊富さにどのような影響を与えるかを理解するには、さらなる研究が必要です。

要約(オリジナル)

The introduction of Artificial Intelligence (AI) generative language models such as GPT (Generative Pre-trained Transformer) and tools such as ChatGPT has triggered a revolution that can transform how text is generated. This has many implications, for example, as AI-generated text becomes a significant fraction of the text in many disciplines, would this have an effect on the language capabilities of readers and also on the training of newer AI tools? Would it affect the evolution of languages? Focusing on one specific aspect of the language: words; will the use of tools such as ChatGPT increase or reduce the vocabulary used or the lexical richness (understood as the number of different words used in a written or oral production) when writing a given text? This has implications for words, as those not included in AI-generated content will tend to be less and less popular and may eventually be lost. In this work, we perform an initial comparison of the vocabulary and lexical richness of ChatGPT and humans when performing the same tasks. In more detail, two datasets containing the answers to different types of questions answered by ChatGPT and humans are used, and the analysis shows that ChatGPT tends to use fewer distinct words and lower lexical richness than humans. These results are very preliminary and additional datasets and ChatGPT configurations have to be evaluated to extract more general conclusions. Therefore, further research is needed to understand how the use of ChatGPT and more broadly generative AI tools will affect the vocabulary and lexical richness in different types of text and languages.

arxiv情報

著者 Pedro Reviriego,Javier Conde,Elena Merino-Gómez,Gonzalo Martínez,José Alberto Hernández
発行日 2023-08-14 21:19:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク