要約
世界モデリング、つまり世界の進化を予測するために世界を支配する規則の表現を構築することは、物理世界と対話するエージェントにとって不可欠な能力です。
ビデオ入力からのワールド モデリングの問題に対する Transformer アーキテクチャの最近の適用では、サンプル効率の顕著な向上が示されています。
ただし、既存のアプローチは画像レベルでのみ機能する傾向があり、環境が相互に作用するオブジェクトで構成されていることが無視されます。
この論文では、世界モデリングのための Transformers と、シーンに現れるオブジェクトの表現を学習するためのアプローチであるスロット アテンション パラダイムを組み合わせたアーキテクチャを提案します。
結果として得られるニューラル アーキテクチャについて説明し、サンプル効率の点で既存のソリューションよりも改善され、トレーニング サンプルと比較してパフォーマンスの変動が減少したことを示す実験結果を報告します。
アーキテクチャと実験のコードは https://github.com/torchipeppo/transformers-and-slot-encoding-for-wm で入手できます。
要約(オリジナル)
World modelling, i.e. building a representation of the rules that govern the world so as to predict its evolution, is an essential ability for any agent interacting with the physical world. Recent applications of the Transformer architecture to the problem of world modelling from video input show notable improvements in sample efficiency. However, existing approaches tend to work only at the image level thus disregarding that the environment is composed of objects interacting with each other. In this paper, we propose an architecture combining Transformers for world modelling with the slot-attention paradigm, an approach for learning representations of objects appearing in a scene. We describe the resulting neural architecture and report experimental results showing an improvement over the existing solutions in terms of sample efficiency and a reduction of the variation of the performance over the training examples. The code for our architecture and experiments is available at https://github.com/torchipeppo/transformers-and-slot-encoding-for-wm
arxiv情報
著者 | Francesco Petri,Luigi Asprino,Aldo Gangemi |
発行日 | 2024-05-30 15:48:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google