A closer look at how large language models trust humans: patterns and biases

要約

大規模な言語モデル(LLM)とLLMベースのエージェントが意思決定のコンテキストで人間とますます相互作用するようになるため、人間とAIのエージェント間の信頼ダイナミクスを理解することが中心的な関心事になります。
人間がAIエージェントをどのように信頼するかを研究しているかなりの文献が研究されていますが、LLMベースのエージェントが人間に対する効果的な信頼をどのように開発するかはあまり理解されていません。
LLMベースのエージェントは、意思決定を支援および影響を与えるために、信託関連のコンテキスト(例:個々のローン申請を評価する)に対する何らかの暗黙の効果的な信頼に依存している可能性があります。
確立された行動理論を使用して、LLMSの信頼が3つの主要な信頼性の側面、つまり能力、慈悲、人間の主題の完全性に依存するかどうかを研究するアプローチを開発します。
また、人口統計変数が効果的な信頼にどのように影響するかを研究します。
43,200のシミュレートされた実験で、5つの一般的な言語モデルで、5つの異なるシナリオで、LLMトラスト開発が人間の信頼開発と全体的な類似性を示していることがわかります。
すべての場合ではありませんが、LLMトラストは信頼性によって強く予測されており、場合によっては年齢、宗教、性別、特に財務シナリオでも偏って​​いることがわかります。
これは、文献で一般的なシナリオや新しいモデルに特に当てはまります。
全体的なパターンは、効果的な信頼形成の人間のようなメカニズムと一致していますが、異なるモデルは信頼を推定する方法にばらつきを示します。
場合によっては、信頼性と人口統計学的要因は、効果的な信頼の弱い予測因子です。
これらの調査結果は、AIから人間への信頼のダイナミクスとバイアスの監視と、AIの信頼に敏感なアプリケーションにおける意図的で潜在的に有害な結果を防ぐために、バイアスの監視と信頼開発パターンをよりよく理解する必要があります。

要約(オリジナル)

As large language models (LLMs) and LLM-based agents increasingly interact with humans in decision-making contexts, understanding the trust dynamics between humans and AI agents becomes a central concern. While considerable literature studies how humans trust AI agents, it is much less understood how LLM-based agents develop effective trust in humans. LLM-based agents likely rely on some sort of implicit effective trust in trust-related contexts (e.g., evaluating individual loan applications) to assist and affect decision making. Using established behavioral theories, we develop an approach that studies whether LLMs trust depends on the three major trustworthiness dimensions: competence, benevolence and integrity of the human subject. We also study how demographic variables affect effective trust. Across 43,200 simulated experiments, for five popular language models, across five different scenarios we find that LLM trust development shows an overall similarity to human trust development. We find that in most, but not all cases, LLM trust is strongly predicted by trustworthiness, and in some cases also biased by age, religion and gender, especially in financial scenarios. This is particularly true for scenarios common in the literature and for newer models. While the overall patterns align with human-like mechanisms of effective trust formation, different models exhibit variation in how they estimate trust; in some cases, trustworthiness and demographic factors are weak predictors of effective trust. These findings call for a better understanding of AI-to-human trust dynamics and monitoring of biases and trust development patterns to prevent unintended and potentially harmful outcomes in trust-sensitive applications of AI.

arxiv情報

著者 Valeria Lerman,Yaniv Dover
発行日 2025-04-22 11:31:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク