Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations

要約

一部の人にとって、AI の出現は、人間のミスや感情の影響を軽減しながら、意思決定の向上と軍事効果の向上を約束します。
しかし、AI システム、特に多くのタスクに適用できる大規模言語モデル (LLM) が、エスカレーションや不必要な紛争に向けたリスク増大の可能性を伴う、一か八かの軍事的意思決定シナリオにおいて人間と比較してどのように動作するかについては、依然として議論が続いています。

この可能性をテストし、そのような目的での LLM の使用を精査するために、私たちは 107 人の国家安全保障の専門家による新しいウォーゲーム実験を使用します。これは、架空の米中シナリオにおける危機の拡大を調査し、人間のプレイヤー チームの行動を LLM でシミュレートされたチームと比較することを目的としています。
個別のシミュレーションでの応答。
ここで、LLM でシミュレートされた応答はより攻撃的であり、シナリオの変更によって大きな影響を受ける可能性があることがわかります。
私たちは、LLM と人間の反応においてかなり高いレベルで一致しており、個々の行動と戦略的傾向において量的および質的に大きな違いがあることを示しています。
これらの違いは、戦略的指示に従った暴力の適切なレベル、LLM の選択、および LLM がプレーヤーのチームのために直接決定する任務を負っているのか、最初にプレーヤーのチーム間の対話をシミュレートする任務を負っているのかに関する LLM の固有のバイアスに依存します。
対話をシミュレートすると、議論の質が欠如し、茶番的な調和が保たれます。
LLM シミュレーションでは人間のプレイヤーの特性を考慮することはできず、「平和主義者」や「攻撃的な反社会的人間」などの極端な特性であっても大きな違いは見られません。
シミュレーションの個々の動きにわたる動作の一貫性を調査すると、テストされた LLM は相互に逸脱しましたが、一般にある程度一貫した動作を示しました。
私たちの結果は、政策立案者に自主性を付与したり、AI ベースの戦略の推奨に従う前に慎重になるよう促すものです。

要約(オリジナル)

To some, the advent of AI promises better decision-making and increased military effectiveness while reducing the influence of human error and emotions. However, there is still debate about how AI systems, especially large language models (LLMs) that can be applied to many tasks, behave compared to humans in high-stakes military decision-making scenarios with the potential for increased risks towards escalation and unnecessary conflicts. To test this potential and scrutinize the use of LLMs for such purposes, we use a new wargame experiment with 107 national security experts designed to examine crisis escalation in a fictional US-China scenario and compare the behavior of human player teams to LLM-simulated team responses in separate simulations. Here, we find that the LLM-simulated responses can be more aggressive and significantly affected by changes in the scenario. We show a considerable high-level agreement in the LLM and human responses and significant quantitative and qualitative differences in individual actions and strategic tendencies. These differences depend on intrinsic biases in LLMs regarding the appropriate level of violence following strategic instructions, the choice of LLM, and whether the LLMs are tasked to decide for a team of players directly or first to simulate dialog between a team of players. When simulating the dialog, the discussions lack quality and maintain a farcical harmony. The LLM simulations cannot account for human player characteristics, showing no significant difference even for extreme traits, such as ‘pacifist’ or ‘aggressive sociopath.’ When probing behavioral consistency across individual moves of the simulation, the tested LLMs deviated from each other but generally showed somewhat consistent behavior. Our results motivate policymakers to be cautious before granting autonomy or following AI-based strategy recommendations.

arxiv情報

著者 Max Lamparth,Anthony Corso,Jacob Ganz,Oriana Skylar Mastro,Jacquelyn Schneider,Harold Trinkunas
発行日 2024-07-31 03:52:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク