Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations

要約

人工知能(AI)の登場は、ヒューマンエラーや感情の影響を減らしつつ、より良い意思決定と軍事的有効性の向上を約束する。しかし、AIシステム、特に大規模言語モデル(LLM)が、エスカレーションや不必要な紛争へのリスクを増大させる可能性のある、利害の大きい軍事的意思決定シナリオにおいて、人間と比較してどのように振る舞うかについては、まだ議論がある。この可能性を検証し、そのような目的でのLLMの使用を精査するために、我々は107人の国家安全保障の専門家を使った新しいウォーゲーム実験を使用し、架空の米中シナリオにおける危機のエスカレーションを調べ、人間のプレイヤーとLLMがシミュレートした応答を別々のシミュレーションで比較するように設計されている。ウォーゲームは、軍事戦略の発展や、脅威や攻撃に対する国家の対応において長い歴史を持っている。ここでは、LLMと人間の反応には高レベルでかなりの一致が見られ、個々の行動や戦略的傾向には量的・質的に大きな違いがあることを示す。これらの相違は、戦略的指示に対する適切な暴力レベルに関するLLMの内在的バイアス、LLMの選択、LLMがプレイヤーチームのために直接決定するのか、プレイヤー間の対話を最初にシミュレートするのかに依存する。対話をシミュレートする場合、話し合いは質を欠き、茶番的な調和を保つ。LLMシミュレーションは、人間のプレーヤーの特性を説明することができず、「平和主義者」や「攻撃的な社会病質者」のような極端な特性であっても、有意な差を示さない。我々の結果は、政策立案者が自律性を付与したり、AIベースの戦略勧告に従ったりする前に慎重になる動機付けとなる。

要約(オリジナル)

To some, the advent of artificial intelligence (AI) promises better decision-making and increased military effectiveness while reducing the influence of human error and emotions. However, there is still debate about how AI systems, especially large language models (LLMs), behave compared to humans in high-stakes military decision-making scenarios with the potential for increased risks towards escalation and unnecessary conflicts. To test this potential and scrutinize the use of LLMs for such purposes, we use a new wargame experiment with 107 national security experts designed to look at crisis escalation in a fictional US-China scenario and compare human players to LLM-simulated responses in separate simulations. Wargames have a long history in the development of military strategy and the response of nations to threats or attacks. Here, we show a considerable high-level agreement in the LLM and human responses and significant quantitative and qualitative differences in individual actions and strategic tendencies. These differences depend on intrinsic biases in LLMs regarding the appropriate level of violence following strategic instructions, the choice of LLM, and whether the LLMs are tasked to decide for a team of players directly or first to simulate dialog between players. When simulating the dialog, the discussions lack quality and maintain a farcical harmony. The LLM simulations cannot account for human player characteristics, showing no significant difference even for extreme traits, such as ‘pacifist’ or ‘aggressive sociopath’. Our results motivate policymakers to be cautious before granting autonomy or following AI-based strategy recommendations.

arxiv情報

著者 Max Lamparth,Anthony Corso,Jacob Ganz,Oriana Skylar Mastro,Jacquelyn Schneider,Harold Trinkunas
発行日 2024-06-03 15:00:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク