要約
強化学習(RL)を用いることで、エージェントが人間のものに似た単純な近似的・厳密な制限付き数詞体系を導出できることは以前に示されている(Carlsson, 2021)。しかし、RLのような単純な学習メカニズムによって、例えば英語のような、より複雑な再帰的数字システムがどのように生成されるかを示すことは大きな課題である。ここでは、効率的な再帰的数体系の出現を機械論的に説明するアプローチを紹介する。我々は、エージェントのペアが、相互作用を通して徐々に修正されるメタ文法を通して、数値量に関するコミュニケーション方法を学習することを考える。Hurfordのメタ文法(Hurford, 1975)は、最適化の結果、人間の数字システムで観察される標準的な慣習から逸脱したシステムになってしまうため、このアプリケーションには適さない。我々はこの問題を解決する簡単な修正を提案する。Hurfordのメタ文法を少し修正したものを利用することで、効率的なコミュニケーションを求める圧力によって形成された我々のRLエージェントが、その語彙をパレート最適構成に向けて効果的に修正できることを示す。
要約(オリジナル)
It has previously been shown that by using reinforcement learning (RL), agents can derive simple approximate and exact-restricted numeral systems that are similar to human ones (Carlsson, 2021). However, it is a major challenge to show how more complex recursive numeral systems, similar to for example English, could arise via a simple learning mechanism such as RL. Here, we introduce an approach towards deriving a mechanistic explanation of the emergence of efficient recursive number systems. We consider pairs of agents learning how to communicate about numerical quantities through a meta-grammar that can be gradually modified throughout the interactions. %We find that the seminal meta-grammar of Hurford (Hurford, 1975) is not suitable for this application as its optimization results in systems that deviate from standard conventions observed within human numeral systems. We propose a simple modification which addresses this issue. Utilising a slightly modified version of the meta-grammar of Hurford, we demonstrate that our RL agents, shaped by the pressures for efficient communication, can effectively modify their lexicon towards Pareto-optimal configurations which are comparable to those observed within human numeral systems in terms of their efficiency.
arxiv情報
著者 | Andrea Silvi,Jonathan Thomas,Emil Carlsson,Devdatt Dubhashi,Moa Johansson |
発行日 | 2025-03-03 07:02:20+00:00 |
arxivサイト | arxiv_id(pdf) |