AI Can Be Cognitively Biased: An Exploratory Study on Threshold Priming in LLM-Based Batch Relevance Assessment

要約

認知バイアスは、不合理な判断や問題のある意思決定につながる系統的な思考の偏りであり、さまざまな分野で広く研究されています。
最近、大規模言語モデル (LLM) は高度な理解能力を示していますが、トレーニング データから人間のバイアスを受け継いでいる可能性があります。
LLM における社会的バイアスは十分に研究されていますが、認知バイアスについてはあまり注目されておらず、既存の研究は特定のシナリオに焦点を当てています。
さまざまな意思決定の状況において、認知バイアスが LLM に与える広範な影響については、依然として十分に調査されていません。
私たちは、情報検索 (IR) コミュニティで中心的なタスクであり広く議論されている研究テーマである関連性の判断において、LLM が閾値プライミング効果の影響を受けるかどうかを調査しました。
プライミング効果は、特定の刺激にさらされると、その後の行動や意思決定に無意識のうちに影響を与えるときに発生します。
私たちの実験では、TREC 2019 Deep Learning パッセージ トラック コレクションから 10 のトピックを採用し、さまざまなドキュメント関連性スコア、バッチ長、GPT-3.5、GPT-4、LLaMa2-13B、LLaMa2-70B などの LLM モデルの下で AI の判断をテストしました。
結果は、使用される組み合わせとモデルに関係なく、LLM は、以前のドキュメントの関連性が高い場合、後のドキュメントに低いスコアを与える傾向があり、その逆も同様であることを示しました。
私たちの調査結果は、人間の判断と同様に、LLM%u2019s の判断も閾値プライミングバイアスの影響を受けることを示しており、研究者やシステムエンジニアは、IR タスクにおける LLM の設計、評価、監査において、潜在的な人間のような認知バイアスを考慮する必要があることを示唆しています。
そしてその先へ。

要約(オリジナル)

Cognitive biases are systematic deviations in thinking that lead to irrational judgments and problematic decision-making, extensively studied across various fields. Recently, large language models (LLMs) have shown advanced understanding capabilities but may inherit human biases from their training data. While social biases in LLMs have been well-studied, cognitive biases have received less attention, with existing research focusing on specific scenarios. The broader impact of cognitive biases on LLMs in various decision- making contexts remains underexplored. We investigated whether LLMs are influenced by the threshold priming effect in relevance judgments, a core task and widely-discussed research topic in the Information Retrieval (IR) coummunity. The priming effect occurs when exposure to certain stimuli unconsciously affects subsequent behavior and decisions. Our experiment employed 10 topics from the TREC 2019 Deep Learning passage track collection, and tested AI judgments under different document relevance scores, batch lengths, and LLM models, including GPT-3.5, GPT-4, LLaMa2-13B and LLaMa2-70B. Results showed that LLMs tend to give lower scores to later documents if earlier ones have high relevance, and vice versa, regardless of the combination and model used. Our finding demonstrates that LLM%u2019s judgments, similar to human judgments, are also influenced by threshold priming biases, and suggests that researchers and system engineers should take into account potential human-like cognitive biases in designing, evaluating, and auditing LLMs in IR tasks and beyond.

arxiv情報

著者 Nuo Chen,Jiqun Liu,Xiaoyu Dong,Qijiong Liu,Tetsuya Sakai,Xiao-Ming Wu
発行日 2024-09-24 12:23:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク