Deception Abilities Emerged in Large Language Models

要約

大規模言語モデル (LLM) は現在、人工知能 (AI) システムを人間のコミュニケーションや日常生活と結びつける最前線にあります。
したがって、それらを人間の価値観と一致させることが非常に重要です。
しかし、推論能力が着実に向上していることを考えると、将来の LLM は人間のオペレーターを欺くことができるようになり、この能力を利用して監視の努力を回避できるようになるのではないかという疑惑が持たれています。
その前提条件として、LLM は欺瞞戦略の概念的な理解を持っている必要があります。
この研究は、そのような戦略が GPT-4 などの最先端の LLM で出現したが、初期の LLM には存在しなかったことを明らかにしました。
私たちは、最先端の LLM が他のエージェントを理解し、誤った信念を誘導できること、複雑な欺瞞シナリオにおける LLM のパフォーマンスが思考連鎖推論を利用して増幅できること、およびマキャベリズムを引き出すことができることを示す一連の実験を実施します。
LLM では、欺瞞の傾向を変えることができます。
要約すると、LLM におけるこれまで知られていなかった機械の動作を明らかにすることで、私たちの研究は機械心理学の初期の分野に貢献します。

要約(オリジナル)

Large language models (LLMs) are currently at the forefront of intertwining artificial intelligence (AI) systems with human communication and everyday life. Thus, aligning them with human values is of great importance. However, given the steady increase in reasoning abilities, future LLMs are under suspicion of becoming able to deceive human operators and utilizing this ability to bypass monitoring efforts. As a prerequisite to this, LLMs need to possess a conceptual understanding of deception strategies. This study reveals that such strategies emerged in state-of-the-art LLMs, such as GPT-4, but were non-existent in earlier LLMs. We conduct a series of experiments showing that state-of-the-art LLMs are able to understand and induce false beliefs in other agents, that their performance in complex deception scenarios can be amplified utilizing chain-of-thought reasoning, and that eliciting Machiavellianism in LLMs can alter their propensity to deceive. In sum, revealing hitherto unknown machine behavior in LLMs, our study contributes to the nascent field of machine psychology.

arxiv情報

著者 Thilo Hagendorff
発行日 2023-07-31 09:27:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク