Enhancing Interpretability and Interactivity in Robot Manipulation: A Neurosymbolic Approach

要約

タイトル: ロボット操作における解釈性と相互作用の向上:ニューロシンボリックアプローチ

要約:

– ロボット操作における自然言語指示と視覚的推論を結合するためのニューロシンボリックアーキテクチャを提案する。
– 共有されたプリミティブスキルのライブラリを利用して、任意の自然言語入力に対応し、視覚属性の推論、空間的関係の理解、論理・列挙、アーム制御などのタスクを処理する。
– 入力クエリをプリミティブで構成された実行可能なプログラムにマッピングする言語パーサーを使用し、ディープネットワークのスケーラビリティと表現力を融合させた記号論的アプローチの解釈性とシステマティックな汎用性を結婚させる。
– 3Dビジョン-言語綜合シナリオを生成し、シミュレーション環境でトレーニングすることで、アプローチを評価し、シミュレーションおよび現実世界の場面での結果を示す。
– ロボットフレームワークとの統合に成功し、シミュレーションおよび実物のロボットでの対話型物品ピッキングタスクの解釈可能なソリューションとしての利用を示す。
– 結果は、精度、サンプル効率、ユーザーの語彙に対する堅牢性の点でアプローチの利点を示し、少数ショットの視覚的なファインチューニングで現実世界のシーンに移植できるようになっている。同時にデータセットも公開している。

要約(オリジナル)

In this paper we present a neurosymbolic architecture for coupling language-guided visual reasoning with robot manipulation. A non-expert human user can prompt the robot using unconstrained natural language, providing a referring expression (REF), a question (VQA), or a grasp action instruction. The system tackles all cases in a task-agnostic fashion through the utilization of a shared library of primitive skills. Each primitive handles an independent sub-task, such as reasoning about visual attributes, spatial relation comprehension, logic and enumeration, as well as arm control. A language parser maps the input query to an executable program composed of such primitives, depending on the context. While some primitives are purely symbolic operations (e.g. counting), others are trainable neural functions (e.g. visual grounding), therefore marrying the interpretability and systematic generalization benefits of discrete symbolic approaches with the scalability and representational power of deep networks. We generate a 3D vision-and-language synthetic dataset of tabletop scenes in a simulation environment to train our approach and perform extensive evaluations in both synthetic and real-world scenes. Results showcase the benefits of our approach in terms of accuracy, sample-efficiency, and robustness to the user’s vocabulary, while being transferable to real-world scenes with few-shot visual fine-tuning. Finally, we integrate our method with a robot framework and demonstrate how it can serve as an interpretable solution for an interactive object-picking task, both in simulation and with a real robot. We make our datasets available in https://gtziafas.github.io/neurosymbolic-manipulation.

arxiv情報

著者 Georgios Tziafas,Hamidreza Kasaei
発行日 2023-05-07 17:06:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.HC, cs.RO パーマリンク