Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias

要約

最近の研究では、命令のチューニングと人間のフィードバックからの学習により、大規模言語モデル (LM) の能力が劇的に向上することが示されています。
これらの調整方法ではモデルに高品質のテキストを生成させることができますが、これらの微調整されたモデルではより暗黙的な認知バイアスが発生する可能性があると推測しています。
私たちの研究は、これらの微調整されたモデルには、事前トレーニングされた先行モデルには存在しなかった、またはそれほど顕著ではなかったバイアスが見られるという証拠が提供されています。
私たちは、人間の意思決定と推論に影響を与えることが知られている、おとり効果、確実性効果、信念バイアスという 3 つの認知バイアスでこの現象の程度を調べます。
私たちの調査結果は、さまざまなモデル、特に Flan-T5、GPT3.5、GPT4 などの命令チューニングを行ったモデルにこれらのバイアスが存在することを浮き彫りにしています。
この研究は、命令調整型 LM の認知バイアスを理解するための一歩を構成するものであり、これはより信頼性が高くバイアスのない言語モデルの開発にとって重要です。

要約(オリジナル)

Recent studies show that instruction tuning and learning from human feedback improve the abilities of large language models (LMs) dramatically. While these tuning methods can make models generate high-quality text, we conjecture that more implicit cognitive biases may arise in these fine-tuned models. Our work provides evidence that these fine-tuned models exhibit biases that were absent or less pronounced in their pretrained predecessors. We examine the extent of this phenomenon in three cognitive biases – the decoy effect, the certainty effect, and the belief bias – all of which are known to influence human decision-making and reasoning. Our findings highlight the presence of these biases in various models, especially those that have undergone instruction tuning, such as Flan-T5, GPT3.5, and GPT4. This research constitutes a step toward comprehending cognitive biases in instruction-tuned LMs, which is crucial for the development of more reliable and unbiased language models.

arxiv情報

著者 Itay Itzhak,Gabriel Stanovsky,Nir Rosenfeld,Yonatan Belinkov
発行日 2023-08-01 01:39:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク