Giving AI Personalities Leads to More Human-Like Reasoning

要約

計算認知モデリングでは、最適な行動を超えて、人間の判断と意思決定プロセスの全範囲をキャプチャすることは、重要な課題です。
この研究では、大規模な言語モデル(LLM)が、直感的で高速なシステム1と意図的な遅いシステム2プロセスの両方を予測することにより、人間の推論の幅をエミュレートできるかどうかを調査します。
私たちは、「完全な推論スペクトル問題」と呼ばれるものに対処するために、人口の多様な推論行動を模倣するAIの可能性を調査します。
私たちは、人間の推論を再現するLLMSの能力を評価するために、自然言語推論(NLI)形式の新しい一般化を使用して推論タスクを設計しました。
質問は、システム1とシステム2の応答の両方を引き出すために作成されました。
人間の反応はクラウドソーシングを通じて収集され、分布全体が回答の大部分ではなくモデル化されました。
ビッグファイブパーソナリティモデルに触発された人格ベースのプロンプトを使用して、特定の性格特性を反映したAI応答を引き出し、人間の推論の多様性を捉え、性格特性がLLM出力にどのように影響するかを探ることを誘発しました。
これらのプロンプトの重み付けを最適化するための遺伝的アルゴリズムと組み合わせて、この方法は従来の機械学習モデルとともにテストされました。
結果は、LLMがラマやミストラルの優れた独自のGPTモデルなどのオープンソースモデルで、人間の反応分布を模倣できることを示しています。
人格に基づくプロンプトは、特に遺伝的アルゴリズムで最適化された場合、人間の反応分布を予測するLLMSの能力を大幅に強化し、最適ではない自然主義的推論をキャプチャするには、多様な推論スタイルと心理的プロファイルを組み込むモデリング技術が必要になる可能性があることを示唆しています。
この研究では、性格ベースのプロンプトと遺伝的アルゴリズムが組み合わされていることは、推論においてAIの「人間性」を強化することを約束していると結論付けています。

要約(オリジナル)

In computational cognitive modeling, capturing the full spectrum of human judgment and decision-making processes, beyond just optimal behaviors, is a significant challenge. This study explores whether Large Language Models (LLMs) can emulate the breadth of human reasoning by predicting both intuitive, fast System 1 and deliberate, slow System 2 processes. We investigate the potential of AI to mimic diverse reasoning behaviors across a human population, addressing what we call the ‘full reasoning spectrum problem’. We designed reasoning tasks using a novel generalization of the Natural Language Inference (NLI) format to evaluate LLMs’ ability to replicate human reasoning. The questions were crafted to elicit both System 1 and System 2 responses. Human responses were collected through crowd-sourcing and the entire distribution was modeled, rather than just the majority of the answers. We used personality-based prompting inspired by the Big Five personality model to elicit AI responses reflecting specific personality traits, capturing the diversity of human reasoning, and exploring how personality traits influence LLM outputs. Combined with genetic algorithms to optimize the weighting of these prompts, this method was tested alongside traditional machine learning models. The results show that LLMs can mimic human response distributions, with open-source models like Llama and Mistral outperforming proprietary GPT models. Personality-based prompting, especially when optimized with genetic algorithms, significantly enhanced LLMs’ ability to predict human response distributions, suggesting that capturing suboptimal, naturalistic reasoning may require modeling techniques incorporating diverse reasoning styles and psychological profiles. The study concludes that personality-based prompting combined with genetic algorithms is promising for enhancing AI’s ‘human-ness’ in reasoning.

arxiv情報

著者 Animesh Nighojkar,Bekhzodbek Moydinboyev,My Duong,John Licato
発行日 2025-02-21 14:57:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク