要約
今日の社会科学の基本的な質問の1つは、ChatGPTのような非常に複雑な予測モデルをどれだけ信頼できるかということです。
この研究では、プロンプトの構造の微妙な変化が、大規模な言語モデルGPT-4O MINIによって生成された感情極性分析の分類結果に大きな変動をもたらさないという仮説をテストします。
4人のラテンアメリカ大統領にスペイン語で100.000のコメントのデータセットを使用して、モデルはコメントを10回肯定的、否定的、または中立として分類し、毎回プロンプトをわずかに変化させました。
実験方法には、分類間の有意な矛盾を特定するための探索的および確認分析が含まれていました。
結果は、語彙、構文、モーダルの変化などのプロンプトに対する軽微な変更でさえ、またはその構造の欠如が分類に影響することを明らかにしています。
特定の場合、モデルは、混合カテゴリ、未承諾の説明を提供する、またはスペイン語以外の言語を使用するなど、一貫性のない応答を生成しました。
カイ二乗検定を使用した統計分析により、言語構造が非常に類似している場合を除き、プロンプト間のほとんどの比較において有意差が確認されました。
これらの調査結果は、分類タスクのための大規模な言語モデルの堅牢性と信頼に挑戦し、指示の変動に対する脆弱性を強調しています。
さらに、プロンプトに構造化された文法の欠如が幻覚の頻度を増加させることは明らかでした。
議論は、大規模な言語モデルでの信頼は、技術的なパフォーマンスだけでなく、その使用を支える社会的および制度的関係にも基づいていることを強調しています。
要約(オリジナル)
One fundamental question for the social sciences today is: how much can we trust highly complex predictive models like ChatGPT? This study tests the hypothesis that subtle changes in the structure of prompts do not produce significant variations in the classification results of sentiment polarity analysis generated by the Large Language Model GPT-4o mini. Using a dataset of 100.000 comments in Spanish on four Latin American presidents, the model classified the comments as positive, negative, or neutral on 10 occasions, varying the prompts slightly each time. The experimental methodology included exploratory and confirmatory analyses to identify significant discrepancies among classifications. The results reveal that even minor modifications to prompts such as lexical, syntactic, or modal changes, or even their lack of structure impact the classifications. In certain cases, the model produced inconsistent responses, such as mixing categories, providing unsolicited explanations, or using languages other than Spanish. Statistical analysis using Chi-square tests confirmed significant differences in most comparisons between prompts, except in one case where linguistic structures were highly similar. These findings challenge the robustness and trust of Large Language Models for classification tasks, highlighting their vulnerability to variations in instructions. Moreover, it was evident that the lack of structured grammar in prompts increases the frequency of hallucinations. The discussion underscores that trust in Large Language Models is based not only on technical performance but also on the social and institutional relationships underpinning their use.
arxiv情報
著者 | Jaime E. Cuellar,Oscar Moreno-Martinez,Paula Sofia Torres-Rodriguez,Jaime Andres Pavlich-Mariscal,Andres Felipe Mican-Castiblanco,Juan Guillermo Torres-Hurtado |
発行日 | 2025-04-16 15:37:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google