Learning Efficient Recursive Numeral Systems via Reinforcement Learning

要約

数体系などの数学的概念の出現は、数学と推論に関する AI の分野で十分に研究されていません。
それは以前に Carlsson et al. によって示されています。
(2021) 強化学習 (RL) を使用することで、エージェントは単純な近似および厳密に制限された数値体系を導出できると述べています。
しかし、英語で使用されているものと同様の、より複雑な再帰的記数法が、RL などの単純な学習メカニズムを介してどのように生成されるかを示すことは、大きな課題です。
ここでは、与えられたメタ文法の下で辞書を直接最適化する RL エージェントを考慮した、再帰的記数体系の出現の機構的説明を導き出すためのアプローチを紹介します。
Hurford (1975) の独創的なメタ文法のわずかに修正されたバージョンを利用して、RL エージェントが人間の数字体系内で観察されるものと同等のパレート最適構成に向けて語彙を効果的に変更できることを実証します。

要約(オリジナル)

The emergence of mathematical concepts, such as number systems, is an understudied area in AI for mathematics and reasoning. It has previously been shown Carlsson et al. (2021) that by using reinforcement learning (RL), agents can derive simple approximate and exact-restricted numeral systems. However, it is a major challenge to show how more complex recursive numeral systems, similar to the one utilised in English, could arise via a simple learning mechanism such as RL. Here, we introduce an approach towards deriving a mechanistic explanation of the emergence of recursive number systems where we consider an RL agent which directly optimizes a lexicon under a given meta-grammar. Utilising a slightly modified version of the seminal meta-grammar of Hurford (1975), we demonstrate that our RL agent can effectively modify the lexicon towards Pareto-optimal configurations which are comparable to those observed within human numeral systems.

arxiv情報

著者 Jonathan D. Thomas,Andrea Silvi,Devdatt Dubhashi,Emil Carlsson,Moa Johansson
発行日 2024-09-11 10:33:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク