要約
トークン チューリング マシン (TTM) を提案します。これは、実世界の逐次的な視覚的理解のためのメモリを備えた逐次的な自己回帰トランスフォーマー モデルです。
私たちのモデルは、独創的なニューラル チューリング マシンに触発されており、以前の履歴 (つまり、フレーム) を要約するトークンのセットで構成される外部メモリを持っています。
このメモリは、各ステップでトランスフォーマーを処理ユニット/コントローラーとして使用して、効率的にアドレス指定、読み取り、書き込みを行います。
モデルのメモリ モジュールは、新しい観測がメモリの内容でのみ処理されることを保証します (履歴全体ではありません)。つまり、各ステップで限られた計算コストで長いシーケンスを効率的に処理できます。
TTM は、ビデオからのオンラインの時間的活動検出と視覚ベースのロボット アクション ポリシー学習という 2 つの実世界の逐次的な視覚的理解タスクで、長いシーケンスと再帰型ニューラル ネットワーク用に設計された他の Transformer モデルなどの他の選択肢よりも優れていることを示しています。
要約(オリジナル)
We propose Token Turing Machines (TTM), a sequential, autoregressive Transformer model with memory for real-world sequential visual understanding. Our model is inspired by the seminal Neural Turing Machine, and has an external memory consisting of a set of tokens which summarise the previous history (i.e., frames). This memory is efficiently addressed, read and written using a Transformer as the processing unit/controller at each step. The model’s memory module ensures that a new observation will only be processed with the contents of the memory (and not the entire history), meaning that it can efficiently process long sequences with a bounded computational cost at each step. We show that TTM outperforms other alternatives, such as other Transformer models designed for long sequences and recurrent neural networks, on two real-world sequential visual understanding tasks: online temporal activity detection from videos and vision-based robot action policy learning.
arxiv情報
著者 | Michael S. Ryoo,Keerthana Gopalakrishnan,Kumara Kahatapitiya,Ted Xiao,Kanishka Rao,Austin Stone,Yao Lu,Julian Ibarz,Anurag Arnab |
発行日 | 2022-11-16 18:59:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google