Contrasting Linguistic Patterns in Human and LLM-Generated Text

要約

私たちは、人間が書いた英語ニュース テキストと、合計 3 つの異なるファミリーと 4 つのサイズをカバーする 6 つの異なる LLM から出力された同等の大規模言語モデル (LLM) を対比する定量分析を実行します。
私たちの分析は、形態学的、統語論、心理測定、社会言語学的側面を含む、いくつかの測定可能な言語次元に及びます。
その結果、人間が生成したテキストと AI が生成したテキストの間には、測定可能なさまざまな違いがあることが明らかになりました。
人間のテキストは、より分散した文の長さの分布、より多様な語彙、依存関係と構成要素の種類の明確な使用、より短い構成要素、およびより最適化された依存関係の距離を示します。
人間は、LLM によって生成されたテキストと比較して、より強い否定的な感情 (恐怖や嫌悪感など) を示し、喜びが少ない傾向があり、これらのモデルの毒性はサイズが大きくなるにつれて増加します。
LLM の出力では、人間のテキストよりも多くの数字、記号、補助語 (客観的な言語を示唆する)、および代名詞が使用されます。
人間のテキストに蔓延する性差別的な偏見は LLM によっても表現されており、1 つを除くすべての LLM でさらに拡大されています。
LLM と人間の間の違いは、LLM 間の違いよりも大きくなります。

要約(オリジナル)

We conduct a quantitative analysis contrasting human-written English news text with comparable large language model (LLM) output from six different LLMs that cover three different families and four sizes in total. Our analysis spans several measurable linguistic dimensions, including morphological, syntactic, psychometric, and sociolinguistic aspects. The results reveal various measurable differences between human and AI-generated texts. Human texts exhibit more scattered sentence length distributions, more variety of vocabulary, a distinct use of dependency and constituent types, shorter constituents, and more optimized dependency distances. Humans tend to exhibit stronger negative emotions (such as fear and disgust) and less joy compared to text generated by LLMs, with the toxicity of these models increasing as their size grows. LLM outputs use more numbers, symbols and auxiliaries (suggesting objective language) than human texts, as well as more pronouns. The sexist bias prevalent in human text is also expressed by LLMs, and even magnified in all of them but one. Differences between LLMs and humans are larger than between LLMs.

arxiv情報

著者 Alberto Muñoz-Ortiz,Carlos Gómez-Rodríguez,David Vilares
発行日 2024-08-23 10:42:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.7 パーマリンク