A Comprehensive Analysis of Large Language Model Outputs: Similarity, Diversity, and Bias

要約

大規模な言語モデル(LLMS)は、人工的な一般情報への主要なステップを表し、テクノロジーと相互作用する能力を大幅に向上させます。
LLMは、翻訳、生成、コードライティング、要約などの自然言語処理タスクでうまく機能しますが、その出力の類似性、変動性、倫理的意味についての質問は残ります。
たとえば、同じモデルによってテキストが生成されるテキストはどの程度似ていますか?
これは異なるモデルでどのように比較されますか?
そして、どのモデルが倫理基準を最もよく維持しますか?
調査するために、生成、説明、書き換えなどの多様なタスクにまたがる5 {、} 000プロンプトを使用しました。
これにより、Openai、Google、Microsoft、Meta、Mistralの独自およびオープンソースシステムを含む、12 LLMから約300万個のテキストが生まれました。
重要な調査結果には、次のものが含まれます。(1)同じLLMからの出力は、人間が作成したテキストよりも互いに類似しています。
(2)WizardLM-2-8x22Bのようなモデルは非常に類似した出力を生成し、GPT-4はより多様な応答を生成します。
(3)LLMのライティングスタイルは大きく異なり、Llama 3とMistralはより高い類似性を示し、GPT-4は独特のために際立っています。
(4)語彙とトーンの違いは、LLM生成コンテンツの言語の一意性を強調しています。
(5)一部のLLMは、性別バランスの向上とバイアスの減少を示しています。
これらの結果は、LLM出力の行動と多様性に関する新しい洞察を提供し、将来の開発と倫理的評価を導くのに役立ちます。

要約(オリジナル)

Large Language Models (LLMs) represent a major step toward artificial general intelligence, significantly advancing our ability to interact with technology. While LLMs perform well on Natural Language Processing tasks — such as translation, generation, code writing, and summarization — questions remain about their output similarity, variability, and ethical implications. For instance, how similar are texts generated by the same model? How does this compare across different models? And which models best uphold ethical standards? To investigate, we used 5{,}000 prompts spanning diverse tasks like generation, explanation, and rewriting. This resulted in approximately 3 million texts from 12 LLMs, including proprietary and open-source systems from OpenAI, Google, Microsoft, Meta, and Mistral. Key findings include: (1) outputs from the same LLM are more similar to each other than to human-written texts; (2) models like WizardLM-2-8x22b generate highly similar outputs, while GPT-4 produces more varied responses; (3) LLM writing styles differ significantly, with Llama 3 and Mistral showing higher similarity, and GPT-4 standing out for distinctiveness; (4) differences in vocabulary and tone underscore the linguistic uniqueness of LLM-generated content; (5) some LLMs demonstrate greater gender balance and reduced bias. These results offer new insights into the behavior and diversity of LLM outputs, helping guide future development and ethical evaluation.

arxiv情報

著者 Brandon Smith,Mohamed Reda Bouadjenek,Tahsin Alamgir Kheya,Phillip Dawson,Sunil Aryal
発行日 2025-05-14 01:21:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク