要約
タイプ 2 の推論機能を備えた人間の知能を複製できるマシンは、内部世界モデルを使用して複数レベルの時空間抽象化とスケールで推論できるはずです。
現実世界の力学に固有の因果階層を正確に反映する、このような内部世界モデルを開発するための形式主義を考案することは、人工知能と機械学習の分野における重要な研究課題です。
この論文は、内部世界モデルとしての状態空間モデル (SSM) の普及に伴ういくつかの制限を特定し、これらの欠点に対処するための 2 つの新しい確率的形式主義、つまり隠れパラメータ SSM とマルチタイム スケール SSM を提案します。
両方の形式におけるグラフィカル モデルの構造により、信念伝播を使用したスケーラブルで正確な確率的推論と、経時的な逆伝播によるエンドツーエンドの学習が容易になります。
このアプローチにより、複数の時間的抽象化とスケールにわたる非定常ダイナミクスを表現できる、スケーラブルで適応性のある階層的世界モデルの開発が可能になります。
さらに、これらの確率的形式主義は世界状態の不確実性の概念を統合するため、現実世界の確率的性質をエミュレートし、予測の信頼性を定量化するシステムの能力が向上します。
この論文では、これらの形式主義がベイズ脳仮説と予測処理に関する関連する神経科学文献とどのように一致するかについても説明しています。
さまざまな実際のロボットとシミュレートされたロボットでの私たちの実験は、私たちの形式主義が長距離の将来予測を行う際に現代の変圧器の性能に匹敵し、多くの場合それを超えることを示しています。
私たちは現在のモデルの限界を振り返り、将来の研究の方向性を提案することで論文を締めくくります。
要約(オリジナル)
Machines that can replicate human intelligence with type 2 reasoning capabilities should be able to reason at multiple levels of spatio-temporal abstractions and scales using internal world models. Devising formalisms to develop such internal world models, which accurately reflect the causal hierarchies inherent in the dynamics of the real world, is a critical research challenge in the domains of artificial intelligence and machine learning. This thesis identifies several limitations with the prevalent use of state space models (SSMs) as internal world models and propose two new probabilistic formalisms namely Hidden-Parameter SSMs and Multi-Time Scale SSMs to address these drawbacks. The structure of graphical models in both formalisms facilitates scalable exact probabilistic inference using belief propagation, as well as end-to-end learning via backpropagation through time. This approach permits the development of scalable, adaptive hierarchical world models capable of representing nonstationary dynamics across multiple temporal abstractions and scales. Moreover, these probabilistic formalisms integrate the concept of uncertainty in world states, thus improving the system’s capacity to emulate the stochastic nature of the real world and quantify the confidence in its predictions. The thesis also discuss how these formalisms are in line with related neuroscience literature on Bayesian brain hypothesis and predicitive processing. Our experiments on various real and simulated robots demonstrate that our formalisms can match and in many cases exceed the performance of contemporary transformer variants in making long-range future predictions. We conclude the thesis by reflecting on the limitations of our current models and suggesting directions for future research.
arxiv情報
著者 | Vaisakh Shaj |
発行日 | 2024-04-26 09:54:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google