Long-form analogies generated by chatGPT lack human-like psycholinguistic properties

要約

心理言語分析は、大規模言語モデル (LLM) の出力を評価し、人間が生成したテキストと系統的に比較する手段を提供します。
これらの方法を使用すると、LLM 出力の心理言語特性を特徴付け、人間が生成したテキストと比較して LLM が不十分な領域を示すことができます。
この研究では、心理言語学的手法を適用して、生化学的概念に関する長文の類推から個々の文を評価します。
生化学入門コースに登録した人間の被験者によって生成された類似性と、chatGPT によって生成された類似性を比較します。
私たちは、テキストの凝集性、言語、読みやすさを分析する Coh-metrix から抽出された 78 個の特徴を使用して教師あり分類分析を実行します (Graesser et. al., 2004)。
結果は、学生が生成したアナロジーと chatGPT が生成したアナロジーを分類する際の高いパフォーマンスを示しています。
どの特徴がモデルのパフォーマンスに最も貢献しているかを評価するために、階層的クラスタリング アプローチを使用します。
この分析の結果は、2 つの情報源間のいくつかの言語的な違いを示しています。

要約(オリジナル)

Psycholinguistic analyses provide a means of evaluating large language model (LLM) output and making systematic comparisons to human-generated text. These methods can be used to characterize the psycholinguistic properties of LLM output and illustrate areas where LLMs fall short in comparison to human-generated text. In this work, we apply psycholinguistic methods to evaluate individual sentences from long-form analogies about biochemical concepts. We compare analogies generated by human subjects enrolled in introductory biochemistry courses to analogies generated by chatGPT. We perform a supervised classification analysis using 78 features extracted from Coh-metrix that analyze text cohesion, language, and readability (Graesser et. al., 2004). Results illustrate high performance for classifying student-generated and chatGPT-generated analogies. To evaluate which features contribute most to model performance, we use a hierarchical clustering approach. Results from this analysis illustrate several linguistic differences between the two sources.

arxiv情報

著者 S. M. Seals,Valerie L. Shalin
発行日 2023-06-07 15:42:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク