要約
文化の蓄積は、人類の歴史にわたる能力の無制限かつ多様な進歩を推進します。
個人の探索と世代間の情報伝達を組み合わせることで、知識とスキルの拡大を構築します。
人間の間で広く成功を収めているにもかかわらず、人工学習エージェントが文化を蓄積する能力はまだ研究されていません。
特に、強化学習へのアプローチは通常、たった 1 つの生涯にわたって改善を目指します。
存在する世代別アルゴリズムは、個人が革新と模倣をトレードオフすることを可能にする文化蓄積のオープンエンドで創発的な性質を捉えることができません。
以前に実証された強化学習エージェントの社会学習を実行する能力に基づいて、これと独立した学習のバランスをとるトレーニング設定が文化的蓄積を引き起こすことがわかりました。
これらの蓄積されたエージェントは、同じ蓄積された経験で 1 つの生涯にわたって訓練されたエージェントよりも優れたパフォーマンスを発揮します。
私たちは、世代の 2 つの異なる概念に基づいて 2 つのモデルを構築することにより、この蓄積を調査します。つまり、コンテキスト内学習を介して蓄積が発生するエピソード世代と、重み内学習を介して蓄積が発生するトレーニング時世代です。
文脈内および重み内の文化的蓄積は、それぞれ知識とスキルの蓄積に類似していると解釈できます。
私たちの知る限り、この研究は、強化学習において創発的な文化的蓄積を達成する一般的なモデルを初めて提示し、よりオープンエンドな学習システムへの新たな道を開くとともに、人間文化をモデル化する新たな機会を提示します。
要約(オリジナル)
Cultural accumulation drives the open-ended and diverse progress in capabilities spanning human history. It builds an expanding body of knowledge and skills by combining individual exploration with inter-generational information transmission. Despite its widespread success among humans, the capacity for artificial learning agents to accumulate culture remains under-explored. In particular, approaches to reinforcement learning typically strive for improvements over only a single lifetime. Generational algorithms that do exist fail to capture the open-ended, emergent nature of cultural accumulation, which allows individuals to trade-off innovation and imitation. Building on the previously demonstrated ability for reinforcement learning agents to perform social learning, we find that training setups which balance this with independent learning give rise to cultural accumulation. These accumulating agents outperform those trained for a single lifetime with the same cumulative experience. We explore this accumulation by constructing two models under two distinct notions of a generation: episodic generations, in which accumulation occurs via in-context learning and train-time generations, in which accumulation occurs via in-weights learning. In-context and in-weights cultural accumulation can be interpreted as analogous to knowledge and skill accumulation, respectively. To the best of our knowledge, this work is the first to present general models that achieve emergent cultural accumulation in reinforcement learning, opening up new avenues towards more open-ended learning systems, as well as presenting new opportunities for modelling human culture.
arxiv情報
著者 | Jonathan Cook,Chris Lu,Edward Hughes,Joel Z. Leibo,Jakob Foerster |
発行日 | 2024-10-28 16:33:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google