Benchmarking Linguistic Diversity of Large Language Models

要約

大規模言語モデル (LLM) の開発と評価は主にそのタスク解決能力に焦点を当てており、最近のモデルは一部の領域で人間のパフォーマンスを上回っています。
しかし、この焦点は、語彙の選択、構文の構築、意味の表現の点で、機械生成言語が人間の多様性のレベルと一致するかどうかを無視することが多く、言語生成の基礎が完全に対処されているかどうかについて疑問を引き起こします。
この論文は、LLM によって制作または支援されたオンライン コンテンツの懸念すべき急増を考慮して、言語モデルによって人間の言語の豊かさの保存を検討することの重要性を強調します。
私たちは、語彙、構文、意味の側面を含むさまざまな言語多様性の観点から LLM を評価するための包括的なフレームワークを提案します。
このフレームワークを使用して、多様性のあらゆる側面にわたっていくつかの最先端の LLM をベンチマークし、構文の多様性に関する詳細なケース スタディを実施します。
最後に、さまざまな開発と展開の選択が LLM 出力の言語多様性にどのような影響を与えるかを分析します。

要約(オリジナル)

The development and evaluation of Large Language Models (LLMs) has primarily focused on their task-solving capabilities, with recent models even surpassing human performance in some areas. However, this focus often neglects whether machine-generated language matches the human level of diversity, in terms of vocabulary choice, syntactic construction, and expression of meaning, raising questions about whether the fundamentals of language generation have been fully addressed. This paper emphasizes the importance of examining the preservation of human linguistic richness by language models, given the concerning surge in online content produced or aided by LLMs. We propose a comprehensive framework for evaluating LLMs from various linguistic diversity perspectives including lexical, syntactic, and semantic dimensions. Using this framework, we benchmark several state-of-the-art LLMs across all diversity dimensions, and conduct an in-depth case study for syntactic diversity. Finally, we analyze how different development and deployment choices impact the linguistic diversity of LLM outputs.

arxiv情報

著者 Yanzhu Guo,Guokan Shang,Chloé Clavel
発行日 2024-12-13 16:46:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク