要約
大規模言語モデル(Large Language Models: LLM)が最近登場し、非常に自然で人間に近いテキストを生成できることから注目を集めている。本研究では、LLMが生成したテキストと人間が書いたテキストの潜在的なコミュニティ構造を仮説検証の手順で比較する。具体的には、人間が書いた元のテキスト($mathcal{O}$)、 LLMで言い換えたバージョン($mathcal{G}$)、そして$mathcal{G}$から派生した2回言い換えた セット($mathcal{S}$)の3つのテキストセットを分析する。本分析では、$mathmathcal{O}$と$mathmathcal{G}$の潜在的なコミュニティ構造の違いは、$mathmathcal{G}$と$mathmathcal{S}$の潜在的なコミュニティ構造の違いと同じか? (2) テキストのばらつきを制御するLLMパラメータを調整すると、$mathmathcal{G}$は$mathmathcal{O}$に似てくるか?最初の疑問は、もしLLMで生成されたテキストが本当に人間の言語に似ているならば、原文とその言い換えからなるペア($mathmathcal{O}$, $mathmathcal{G}$)間のギャップは、ペア($mathmathcal{G}$, $mathmathcal{S}$)間のギャップと似ているはずだという仮定に基づいている。第二の疑問は、LLMで生成されたテキストと人間のテキストとの類似度が、テキスト生成の幅の変化によって変化するかどうかを調べる。これらの疑問を解決するために、我々は、各テキストが言い換え関係により全てのデータセットに対応する部分を持つという事実を活用した統計的仮説検証の枠組みを提案する。この関係により、あるデータセットの相対位置を別のデータセットにマッピングすることが可能となり、2つのデータセットを3つ目のデータセットにマッピングすることができる。その結果、マッピングされた両データセットは、第3のデータセットが特徴付ける空間に関して定量化することができ、両データセット間の直接比較が容易になる。その結果、GPTが生成したテキストは、人間が作成したテキストとは異なることが示された。
要約(オリジナル)
Large Language Models (LLMs) have recently emerged, attracting considerable attention due to their ability to generate highly natural, human-like text. This study compares the latent community structures of LLM-generated text and human-written text within a hypothesis testing procedure. Specifically, we analyze three text sets: original human-written texts ($\mathcal{O}$), their LLM-paraphrased versions ($\mathcal{G}$), and a twice-paraphrased set ($\mathcal{S}$) derived from $\mathcal{G}$. Our analysis addresses two key questions: (1) Is the difference in latent community structures between $\mathcal{O}$ and $\mathcal{G}$ the same as that between $\mathcal{G}$ and $\mathcal{S}$? (2) Does $\mathcal{G}$ become more similar to $\mathcal{O}$ as the LLM parameter controlling text variability is adjusted? The first question is based on the assumption that if LLM-generated text truly resembles human language, then the gap between the pair ($\mathcal{O}$, $\mathcal{G}$) should be similar to that between the pair ($\mathcal{G}$, $\mathcal{S}$), as both pairs consist of an original text and its paraphrase. The second question examines whether the degree of similarity between LLM-generated and human text varies with changes in the breadth of text generation. To address these questions, we propose a statistical hypothesis testing framework that leverages the fact that each text has corresponding parts across all datasets due to their paraphrasing relationship. This relationship enables the mapping of one dataset’s relative position to another, allowing two datasets to be mapped to a third dataset. As a result, both mapped datasets can be quantified with respect to the space characterized by the third dataset, facilitating a direct comparison between them. Our results indicate that GPT-generated text remains distinct from human-authored text.
arxiv情報
著者 | Mose Park,Yunjin Choi,Jong-June Jeon |
発行日 | 2025-01-02 14:13:44+00:00 |
arxivサイト | arxiv_id(pdf) |