HLB: Benchmarking LLMs’ Humanlikeness in Language Use

要約

言語モデルのトレーニング、特に生成された対話を通じて合成データがますます普及するにつれて、これらのモデルが本物の人間の言語パターンから逸脱し、人間のコミュニケーションに固有の豊かさと創造性が失われる可能性があるという懸念が浮上しています。
これは、現実世界での言語使用における言語モデルの人間らしさを評価する重要な必要性を強調しています。
この論文では、音、単語、構文、意味論、談話などの中核となる言語的側面を調査するために設計された 10 の心理言語実験を使用して、20 の大規模言語モデル (LLM) を評価する包括的な人間らしさベンチマーク (HLB) を紹介します (https://huggingface を参照)
.co/spaces/XufengDuan/HumanLikeness)。
これらの比較を固定するために、2,000 人を超える人間の参加者から回答を収集し、それらをこれらの実験の LLM からの出力と比較しました。
厳密な評価を行うために、言語使用パターンを正確に特定し、各タスクの応答分布を抽出できるコーディング アルゴリズムを開発しました。
人間の参加者と LLM の間の応答分布を比較することで、分布の類似性を通じて人間らしさを定量化しました。
私たちの結果は、LLM がさまざまな言語レベルにわたって人間の反応をどの程度うまく再現するかについて、きめ細かい違いを明らかにしました。
重要なのは、他のパフォーマンス指標の向上が必ずしも人間らしさの向上につながるわけではなく、場合によっては人間らしさの低下につながることさえあることがわかりました。
このベンチマークは、心理言語学的手法をモデル評価に導入することにより、言語使用における LLM の人間らしさを体系的に評価するための最初のフレームワークを提供します。

要約(オリジナル)

As synthetic data becomes increasingly prevalent in training language models, particularly through generated dialogue, concerns have emerged that these models may deviate from authentic human language patterns, potentially losing the richness and creativity inherent in human communication. This highlights the critical need to assess the humanlikeness of language models in real-world language use. In this paper, we present a comprehensive humanlikeness benchmark (HLB) evaluating 20 large language models (LLMs) using 10 psycholinguistic experiments designed to probe core linguistic aspects, including sound, word, syntax, semantics, and discourse (see https://huggingface.co/spaces/XufengDuan/HumanLikeness). To anchor these comparisons, we collected responses from over 2,000 human participants and compared them to outputs from the LLMs in these experiments. For rigorous evaluation, we developed a coding algorithm that accurately identified language use patterns, enabling the extraction of response distributions for each task. By comparing the response distributions between human participants and LLMs, we quantified humanlikeness through distributional similarity. Our results reveal fine-grained differences in how well LLMs replicate human responses across various linguistic levels. Importantly, we found that improvements in other performance metrics did not necessarily lead to greater humanlikeness, and in some cases, even resulted in a decline. By introducing psycholinguistic methods to model evaluation, this benchmark offers the first framework for systematically assessing the humanlikeness of LLMs in language use.

arxiv情報

著者 Xufeng Duan,Bei Xiao,Xuemei Tang,Zhenguang G. Cai
発行日 2024-09-24 09:02:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク