Self-playing Adversarial Language Game Enhances LLM Reasoning

要約

Adversarial Taboo と呼ばれる 2 人用の敵対的言語ゲームにおける大規模言語モデル (LLM) のセルフプレイ トレーニング手順を調査します。
このゲームでは、攻撃者と防御者が、攻撃者のみに見えるターゲット単語に関してコミュニケーションを行います。
攻撃者は防御者にターゲット単語を無意識に発話させることを目的とし、防御者は攻撃者の発話からターゲット単語を推測しようとします。
ゲームに勝つには、両方のプレイヤーがターゲットの単語に関する十分な知識と、この情報が確保された会話で推測して表現するための高度な推論能力を持っている必要があります。
したがって、この敵対的言語ゲーム (SPAG) のセルフプレイによって LLM の推論能力をさらに強化できるかどうかに興味があります。
この目標を達成するために、LLM に攻撃者として機能させ、広範囲のターゲット単語に対して防御者として LLM 自身のコピーを操作させます。
ゲームの結果に関する強化学習を通じて、LLM のパフォーマンスが広範囲の推論ベンチマークで均一に向上することが観察されました。
さらに、このセルフプレイプロセスを繰り返し採用することで、LLM の推論能力を継続的に促進できます。
コードは https://github.com/Linear95/SPAG にあります。

要約(オリジナル)

We explore the self-play training procedure of large language models (LLMs) in a two-player adversarial language game called Adversarial Taboo. In this game, an attacker and a defender communicate with respect to a target word only visible to the attacker. The attacker aims to induce the defender to utter the target word unconsciously, while the defender tries to infer the target word from the attacker’s utterances. To win the game, both players should have sufficient knowledge about the target word and high-level reasoning ability to infer and express in this information-reserved conversation. Hence, we are curious about whether LLMs’ reasoning ability can be further enhanced by Self-Play in this Adversarial language Game (SPAG). With this goal, we let LLMs act as the attacker and play with a copy of itself as the defender on an extensive range of target words. Through reinforcement learning on the game outcomes, we observe that the LLMs’ performance uniformly improves on a broad range of reasoning benchmarks. Furthermore, iteratively adopting this self-play process can continuously promote LLM’s reasoning ability. The code is at https://github.com/Linear95/SPAG.

arxiv情報

著者 Pengyu Cheng,Tianhao Hu,Han Xu,Zhisong Zhang,Yong Dai,Lei Han,Nan Du
発行日 2024-04-16 15:16:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク