Contrasting Linguistic Patterns in Human and LLM-Generated Text

要約

私たちは、人間が書いた英語ニュース テキストと、LLaMa ファミリーの 4 つの LLM から出力された同等の大規模言語モデル (LLM) を対比する定量分析を実行します。
私たちの分析は、形態学的、構文的、心理測定的、社会言語学的側面を含む、いくつかの測定可能な言語的側面に及びます。
その結果、人間が生成したテキストと AI が生成したテキストの間には、測定可能なさまざまな違いがあることが明らかになりました。
とりわけ、人間のテキストは、LLM で生成されたテキストに比べて、文の長さの分布がより分散し、依存関係と構成要素の種類が明確に使用され、構成要素が短く、より攻撃的な感情 (恐怖、嫌悪感) を示します。
LLM の出力では、人間のテキストよりも多くの数字、記号、補助語 (客観的な言語を示唆する)、および代名詞が使用されます。
人間のテキストに蔓延する性差別的な偏見は、LLM によっても表現されます。

要約(オリジナル)

We conduct a quantitative analysis contrasting human-written English news text with comparable large language model (LLM) output from 4 LLMs from the LLaMa family. Our analysis spans several measurable linguistic dimensions, including morphological, syntactic, psychometric and sociolinguistic aspects. The results reveal various measurable differences between human and AI-generated texts. Among others, human texts exhibit more scattered sentence length distributions, a distinct use of dependency and constituent types, shorter constituents, and more aggressive emotions (fear, disgust) than LLM-generated texts. LLM outputs use more numbers, symbols and auxiliaries (suggesting objective language) than human texts, as well as more pronouns. The sexist bias prevalent in human text is also expressed by LLMs.

arxiv情報

著者 Alberto Muñoz-Ortiz,Carlos Gómez-Rodríguez,David Vilares
発行日 2023-08-17 15:54:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク