要約
大規模言語モデルにおける創発に関するこれまでの研究では、これらが明らかに人間に似た能力と心理的潜在的特性を示すことが示されています。
しかし、結果は、これらの潜在的特性の表現と大きさにおいて部分的に矛盾しているが、ナルシシズム、精神病質、マキャベリズムの暗い三大要素で高得点を獲得する憂慮すべき傾向については一致しており、脱線の実績と合わせて、より厳密な研究が必要である。
これらのモデルの安全性について。
私たちは、9 つの言語で同じ性格アンケートを含む最先端の言語モデルを提供し、ガウス混合モデルのベイズ分析を実行して、より根深い問題の証拠を発見しました。
私たちの結果は、言語間および言語内の両方の不安定性を示唆しており、これは現在の言語モデルが一貫した核となる人格を発達させていないことを示しています。
これは、これらの基礎モデルに基づいており、人間の生活にますます統合されている人工知能システムの危険な動作につながる可能性があります。
続いて、現代の心理測定学の欠点について議論し、それを抽象化し、種中立で基質を含まない定式化のための枠組みを提供します。
要約(オリジナル)
Previous research on emergence in large language models shows these display apparent human-like abilities and psychological latent traits. However, results are partly contradicting in expression and magnitude of these latent traits, yet agree on the worrisome tendencies to score high on the Dark Triad of narcissism, psychopathy, and Machiavellianism, which, together with a track record of derailments, demands more rigorous research on safety of these models. We provided a state of the art language model with the same personality questionnaire in nine languages, and performed Bayesian analysis of Gaussian Mixture Model, finding evidence for a deeper-rooted issue. Our results suggest both interlingual and intralingual instabilities, which indicate that current language models do not develop a consistent core personality. This can lead to unsafe behaviour of artificial intelligence systems that are based on these foundation models, and are increasingly integrated in human life. We subsequently discuss the shortcomings of modern psychometrics, abstract it, and provide a framework for its species-neutral, substrate-free formulation.
arxiv情報
著者 | Peter Romero,Stephen Fitz,Teruo Nakatsuma |
発行日 | 2024-08-15 05:15:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google