When LLMs Play the Telephone Game: Cultural Attractors as Conceptual Tools to Evaluate LLMs in Multi-turn Settings

要約

大規模な言語モデル(LLM)が互いに相互作用し、オンラインでよりますます多くのテキストを生成するにつれて、あるLLMから次のLMに渡されるときに情報がどのように変換されるかをよりよく理解することが重要になります。
重要な研究では個々のLLMの行動が調査されていますが、既存の研究では、繰り返されるLLM相互作用から生じる集合的な行動と情報の歪みをほとんど見落としています。
単一の出力レベルでは無視できる小さなバイアスは、相互作用の反復で増幅されるリスクがあり、潜在的にコンテンツをアトラクタ状態に向けて進化させる可能性があります。
一連の電話ゲーム実験では、人間の文化的進化文献から借用したトランスミッションチェーン設計を適用します。LLMエージェントは、チェーン内の次のエージェントの前のエージェントからテキストを繰り返し受け取り、生産し、送信します。
伝送チェーン全体のテキスト毒性、陽性、難易度、長さの進化を追跡することにより、バイアスとアトラクタの存在を明らかにし、初期テキスト、命令、言語モデル、モデルサイズへの依存を研究します。
たとえば、より制約されたタスクと比較して、よりオープンエンドの指示がより強力な魅力効果につながることがわかります。
また、異なるテキストプロパティが魅力効果に対して異なる感度を示し、毒性が長さよりも強いアトラクタにつながることがわかります。
これらの調査結果は、マルチステップ伝送のダイナミクスを考慮することの重要性を強調し、LLMの文化的ダイナミクスのより包括的な理解に向けた最初のステップを表しています。

要約(オリジナル)

As large language models (LLMs) start interacting with each other and generating an increasing amount of text online, it becomes crucial to better understand how information is transformed as it passes from one LLM to the next. While significant research has examined individual LLM behaviors, existing studies have largely overlooked the collective behaviors and information distortions arising from iterated LLM interactions. Small biases, negligible at the single output level, risk being amplified in iterated interactions, potentially leading the content to evolve towards attractor states. In a series of telephone game experiments, we apply a transmission chain design borrowed from the human cultural evolution literature: LLM agents iteratively receive, produce, and transmit texts from the previous to the next agent in the chain. By tracking the evolution of text toxicity, positivity, difficulty, and length across transmission chains, we uncover the existence of biases and attractors, and study their dependence on the initial text, the instructions, language model, and model size. For instance, we find that more open-ended instructions lead to stronger attraction effects compared to more constrained tasks. We also find that different text properties display different sensitivity to attraction effects, with toxicity leading to stronger attractors than length. These findings highlight the importance of accounting for multi-step transmission dynamics and represent a first step towards a more comprehensive understanding of LLM cultural dynamics.

arxiv情報

著者 Jérémy Perez,Grgur Kovač,Corentin Léger,Cédric Colas,Gaia Molinaro,Maxime Derex,Pierre-Yves Oudeyer,Clément Moulin-Frier
発行日 2025-06-02 14:34:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.MA, I.2.7, physics.soc-ph パーマリンク