Token Turing Machines

要約

マシン・ラーニングに関する論文紹介

タイトル:Token Turing Machines
要約:
・「Token Turing Machines (TTM)」は、シーケンシャルかつオートレグレッシブなTransformerモデルであり、外部メモリーによるリアルワールドのシーケンシャル・ビジュアル理解に焦点を当てる。
・従来のNeural Turing Machineをベースに考えられたモデルで、フレームの要約情報を記憶するためのトークンを使う。このメモリーは、Transformerモデルをプロセッサー/コントローラーとして使用することで、容易にアドレス指定、読み書き可能。
・メモリー部分を利用することで、新しい観測データが過去の履歴全体を必要とせずに処理できるため、計算コストを低減できる。
・TTMは、長いシーケンスに対して、他のTransformerモデルやRecurrent Neural Networkよりも優位にパフォーマンスが良いことが確認され、具体的には、オンラインでの動画からの時系列活動の検出や、ロボットの行動方針学習において、良好な結果が得られた。
・コードはパブリックリポジトリにて公開されている。

要約(オリジナル)

We propose Token Turing Machines (TTM), a sequential, autoregressive Transformer model with memory for real-world sequential visual understanding. Our model is inspired by the seminal Neural Turing Machine, and has an external memory consisting of a set of tokens which summarise the previous history (i.e., frames). This memory is efficiently addressed, read and written using a Transformer as the processing unit/controller at each step. The model’s memory module ensures that a new observation will only be processed with the contents of the memory (and not the entire history), meaning that it can efficiently process long sequences with a bounded computational cost at each step. We show that TTM outperforms other alternatives, such as other Transformer models designed for long sequences and recurrent neural networks, on two real-world sequential visual understanding tasks: online temporal activity detection from videos and vision-based robot action policy learning. Code is publicly available at: https://github.com/google-research/scenic/tree/main/scenic/projects/token_turing

arxiv情報

著者 Michael S. Ryoo,Keerthana Gopalakrishnan,Kumara Kahatapitiya,Ted Xiao,Kanishka Rao,Austin Stone,Yao Lu,Julian Ibarz,Anurag Arnab
発行日 2023-04-13 15:23:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク