要約
最近、人間に似た性格特性が大規模な言語モデルで発見され、その(既知だがまだ発見されていない)バイアスが人間の潜在的な心理構造と一致しているという仮説が浮上している。
大規模な会話モデルはだまされて心理測定のアンケートに回答する可能性がありますが、他のタスク用に訓練された何千もの単純なトランスフォーマーの潜在的な心理構造は、適切な心理測定手法が現在不足しているため評価できません。
ここでは、標準的な心理アンケートを自然言語推論プロンプトに再定式化する方法を示し、任意のモデルの心理測定評価をサポートするコード ライブラリを提供します。
私たちは、公開されている 88 個のモデルのサンプルを使用して、人間心理学の標準理論に準拠し、同様の相関関係と緩和戦略を示す、人間に似たメンタルヘルス関連の構成要素 (不安、うつ病、一貫性感覚など) の存在を実証します。
心理学的ツールを使用して言語モデルのパフォーマンスを解釈および修正できる機能により、より説明可能で制御可能で信頼できるモデルの開発が促進されます。
要約(オリジナル)
Human-like personality traits have recently been discovered in large language models, raising the hypothesis that their (known and as yet undiscovered) biases conform with human latent psychological constructs. While large conversational models may be tricked into answering psychometric questionnaires, the latent psychological constructs of thousands of simpler transformers, trained for other tasks, cannot be assessed because appropriate psychometric methods are currently lacking. Here, we show how standard psychological questionnaires can be reformulated into natural language inference prompts, and we provide a code library to support the psychometric assessment of arbitrary models. We demonstrate, using a sample of 88 publicly available models, the existence of human-like mental health-related constructs (including anxiety, depression, and Sense of Coherence) which conform with standard theories in human psychology and show similar correlations and mitigation strategies. The ability to interpret and rectify the performance of language models by using psychological tools can boost the development of more explainable, controllable, and trustworthy models.
arxiv情報
著者 | Maor Reuben,Ortal Slobodin,Aviad Elyshar,Idan-Chaim Cohen,Orna Braun-Lewensohn,Odeya Cohen,Rami Puzis |
発行日 | 2025-01-13 10:08:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google