要約
複雑な視覚オブジェクトの構造的理解は、人工知能の重要な未解決の要素です。
これを研究するために、LTRON で最近提案された Break-and-Make 問題に対する新しい手法を開発しました。この問題では、エージェントは、コンポーネントとその構造に関する情報を収集するために、単一の対話型セッションを使用して、これまで見たことのない LEGO アセンブリを構築する方法を学習する必要があります。
私たちは、独自の視覚的な説明書を作成できる \textbf{\ours} と呼ばれるエージェントを構築することで、この問題に取り組みます。
目に見えないアセンブリを逆アセンブルし、そのイメージを定期的に保存することで、エージェントは一連の命令を作成して、再構築に必要な情報を得ることができます。
これらの命令は、モデルが一度に 1 ステップずつ組み立てプロセスについて推論できるようにする明示的な記憶を形成し、長期にわたる暗黙的な記憶の必要性を回避します。
これにより、これまで可能であったものよりもはるかに大きなレゴ アセンブリでトレーニングできるようになります。
このモデルの力を実証するために、手順に従って構築されたレゴ車両の新しいデータセットをリリースします。このデータセットには、それぞれ平均 31 個のレンガが含まれており、分解と再組み立てには 100 ステップ以上が必要です。
これらのモデルは、モデル自身の間違いから学習できるオンライン模倣学習を使用してトレーニングされます。
最後に、学習環境を簡素化し、使いやすさを向上させる、LTRON と Break-and-Make 問題に対する小さな改善もいくつか提供します。
要約(オリジナル)
Structural understanding of complex visual objects is an important unsolved component of artificial intelligence. To study this, we develop a new technique for the recently proposed Break-and-Make problem in LTRON where an agent must learn to build a previously unseen LEGO assembly using a single interactive session to gather information about its components and their structure. We attack this problem by building an agent that we call \textbf{\ours} that is able to make its own visual instruction book. By disassembling an unseen assembly and periodically saving images of it, the agent is able to create a set of instructions so that it has the information necessary to rebuild it. These instructions form an explicit memory that allows the model to reason about the assembly process one step at a time, avoiding the need for long-term implicit memory. This in turn allows us to train on much larger LEGO assemblies than has been possible in the past. To demonstrate the power of this model, we release a new dataset of procedurally built LEGO vehicles that contain an average of 31 bricks each and require over one hundred steps to disassemble and reassemble. We train these models using online imitation learning which allows the model to learn from its own mistakes. Finally, we also provide some small improvements to LTRON and the Break-and-Make problem that simplify the learning environment and improve usability.
arxiv情報
著者 | Aaron Walsman,Muru Zhang,Adam Fishman,Ali Farhadi,Dieter Fox |
発行日 | 2024-10-01 22:39:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google