Interactive Visual Task Learning for Robots

要約

私たちは、人間のユーザーとのその場での言語的相互作用を通じて、ロボットが新しい視覚的な概念とタスクを学習するためのフレームワークを紹介します。
これまでのアプローチでは、事前にトレーニングされた大規模な視覚モデルを使用して新しいオブジェクトをゼロショットで推論するか、新しい概念をその属性や表現とともに概念階層に追加していました。
私たちは、新しい概念を学習し、それを使って目に見えないロボット工学のタスクを解決できるようにすることで、視覚的な概念階層の学習に焦点を当てたアプローチを拡張します。
視覚的な概念の学習者がロボット工学のタスクをワンショットで解決できるようにするために、私たちは 2 つの異なる技術を開発しました。
まず、概念階層内の親ノードに新しい概念の情報を追加する新しいアプローチである Hi-Viscont (HIerarchical VISual CONcept learner for Task) を提案します。
この情報の伝播により、継続的な学習環境で新しい概念が教えられるにつれて、階層内のすべての概念が更新されます。
次に、視覚的なタスクを言語注釈を備えたシーン グラフとして表現し、実証されたタスクのゼロショットの新しい順列をその場で作成できるようにします。
2 組の結果を紹介します。
まず、3 つの領域におけるビジュアル質問応答(VQA)に関するベースライン モデル (FALCON) と Hi-Viscont を比較します。
Hi-Viscont は、リーフ レベルのコンセプトではベースライン モデルと同等ですが、非リーフ コンセプトでは平均 9% 以上の改善を達成しています。
私たちのモデルのパフォーマンスをベースラインの FALCON モデルと比較します。
私たちのフレームワークは、ベースライン モデルと比較して、成功率メトリクスで 33% の向上、オブジェクト レベルの精度で 19% の向上を達成しました。
これらの結果の両方で、ロボットの継続的な学習設定でタスクと概念を学習するモデルの能力を実証しました。

要約(オリジナル)

We present a framework for robots to learn novel visual concepts and tasks via in-situ linguistic interactions with human users. Previous approaches have either used large pre-trained visual models to infer novel objects zero-shot, or added novel concepts along with their attributes and representations to a concept hierarchy. We extend the approaches that focus on learning visual concept hierarchies by enabling them to learn novel concepts and solve unseen robotics tasks with them. To enable a visual concept learner to solve robotics tasks one-shot, we developed two distinct techniques. Firstly, we propose a novel approach, Hi-Viscont(HIerarchical VISual CONcept learner for Task), which augments information of a novel concept to its parent nodes within a concept hierarchy. This information propagation allows all concepts in a hierarchy to update as novel concepts are taught in a continual learning setting. Secondly, we represent a visual task as a scene graph with language annotations, allowing us to create novel permutations of a demonstrated task zero-shot in-situ. We present two sets of results. Firstly, we compare Hi-Viscont with the baseline model (FALCON) on visual question answering(VQA) in three domains. While being comparable to the baseline model on leaf level concepts, Hi-Viscont achieves an improvement of over 9% on non-leaf concepts on average. We compare our model’s performance against the baseline FALCON model. Our framework achieves 33% improvements in success rate metric, and 19% improvements in the object level accuracy compared to the baseline model. With both of these results we demonstrate the ability of our model to learn tasks and concepts in a continual learning setting on the robot.

arxiv情報

著者 Weiwei Gu,Anant Sah,Nakul Gopalan
発行日 2023-12-20 17:38:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO パーマリンク