要約
人間が多関節オブジェクトを使ってタスクを実行するとき、オブジェクトと対話する方法はほんの一握りですが、すべての可能な対話の空間はほぼ無限にあります。
これは、人間はどのようなインタラクションが成功する可能性が高いかについての事前知識があるためです。つまり、新しいドアを開けるためには、まずハンドルを試します。
このような事前分布を監視なしで学習するのは人間にとっては簡単ですが、機械にとっては難しいことで知られています。
この研究では、多関節オブジェクトとの有用な相互作用の事前分布 (相互作用モードと呼ばれます) の教師なし学習に取り組みます。
従来技術とは対照的に、我々は監視情報や特権情報を使用しません。
インタラクション モードを学習するために、シミュレーターで深度センサーにアクセスすることのみを想定しています。
より正確には、成功したインタラクションを視覚環境を大幅に変えるものとして定義し、オブジェクトの望ましい目標状態に条件付けできる、そのようなインタラクションの生成モデルを学習します。
私たちの実験では、私たちのモデルが人間のインタラクションモードのほとんどをカバーし、アフォーダンス学習のための既存の最先端の方法を上回り、トレーニング中に決して見られなかったオブジェクトに一般化できることを示しました。
さらに、目標条件付きセットアップでも有望な結果が得られます。このセットアップでは、特定のタスクを実行するためにモデルを迅速に微調整できます。
実験では、このようなアフォーダンス学習は、クエリを行っている多関節オブジェクトのほとんどのインタラクションモードをカバーし、目標条件付きモデルに合わせて微調整できるインタラクションを予測することを示します。
補足: https://actaim.github.io
要約(オリジナル)
When humans perform a task with an articulated object, they interact with the object only in a handful of ways, while the space of all possible interactions is nearly endless. This is because humans have prior knowledge about what interactions are likely to be successful, i.e., to open a new door we first try the handle. While learning such priors without supervision is easy for humans, it is notoriously hard for machines. In this work, we tackle unsupervised learning of priors of useful interactions with articulated objects, which we call interaction modes. In contrast to the prior art, we use no supervision or privileged information; we only assume access to the depth sensor in the simulator to learn the interaction modes. More precisely, we define a successful interaction as the one changing the visual environment substantially and learn a generative model of such interactions, that can be conditioned on the desired goal state of the object. In our experiments, we show that our model covers most of the human interaction modes, outperforms existing state-of-the-art methods for affordance learning, and can generalize to objects never seen during training. Additionally, we show promising results in the goal-conditional setup, where our model can be quickly fine-tuned to perform a given task. We show in the experiments that such affordance learning predicts interaction which covers most modes of interaction for the querying articulated object and can be fine-tuned to a goal-conditional model. For supplementary: https://actaim.github.io.
arxiv情報
著者 | Liquan Wang,Nikita Dvornik,Rafael Dubeau,Mayank Mittal,Animesh Garg |
発行日 | 2023-05-27 19:58:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google