How to Tidy Up a Table: Fusing Visual and Semantic Commonsense Reasoning for Robotic Tasks with Vague Objectives

要約

現実の多くのシナリオにおける曖昧な目標は、最適化のためのルール、報酬、または制約を定義することが難しいため、ロボット工学にとって長年の課題となっています。
散らかったテーブルを片づけるなどの作業は、人間にとっては簡単に見えるかもしれませんが、常識的な推論には曖昧さと柔軟性があるため、整頓の基準を明確にすることは複雑です。
大規模言語モデル (LLM) の最近の進歩により、これらの漠然とした目的を推論する機会が与えられています。LLM は、広範な人間のデータから学習し、人間の行動に関する意味のある常識を捉えます。
ただし、LLM は言語入力のみでトレーニングされるため、知覚と低レベルの制御を説明する能力が限られているため、ロボット タスクに苦労する可能性があります。
この研究では、目的が曖昧なロボットタスクの例である、テーブルの整理整頓というタスクを解決するためのシンプルなアプローチを提案します。
具体的には、テーブルを整頓するタスクには、意味論的な整頓のためにオブジェクトをタイプおよび機能別にクラスタリングするだけでなく、視覚的な整頓と呼ばれる、視覚的に心地よい配置のためにオブジェクトの空間と視覚の関係を考慮することも含まれます。
視覚的な整理整頓を達成するために、LLM の意味論的な整理整頓ポリシーを基礎付けるために、軽量の画像ベースの整理整頓スコア関数を学習することを提案します。
私たちは、いくつかのきちんとした構成からランダム ウォークを使用して収集した合成データを使用して、整理整頓スコアを革新的にトレーニングします。
そのような軌跡は自然に整理整頓の秩序をコード化し、それによって、労力と費用のかかる人間によるデモンストレーションの必要性を排除します。
私たちの経験的な結果は、私たちのパイプラインが目に見えないオブジェクトや複雑な 3D 配置に適用できることを示しています。

要約(オリジナル)

Vague objectives in many real-life scenarios pose long-standing challenges for robotics, as defining rules, rewards, or constraints for optimization is difficult. Tasks like tidying a messy table may appear simple for humans, but articulating the criteria for tidiness is complex due to the ambiguity and flexibility in commonsense reasoning. Recent advancement in Large Language Models (LLMs) offers us an opportunity to reason over these vague objectives: learned from extensive human data, LLMs capture meaningful common sense about human behavior. However, as LLMs are trained solely on language input, they may struggle with robotic tasks due to their limited capacity to account for perception and low-level controls. In this work, we propose a simple approach to solve the task of table tidying, an example of robotic tasks with vague objectives. Specifically, the task of tidying a table involves not just clustering objects by type and functionality for semantic tidiness but also considering spatial-visual relations of objects for a visually pleasing arrangement, termed as visual tidiness. We propose to learn a lightweight, image-based tidiness score function to ground the semantically tidy policy of LLMs to achieve visual tidiness. We innovatively train the tidiness score using synthetic data gathered using random walks from a few tidy configurations. Such trajectories naturally encode the order of tidiness, thereby eliminating the need for laborious and expensive human demonstrations. Our empirical results show that our pipeline can be applied to unseen objects and complex 3D arrangements.

arxiv情報

著者 Yiqing Xu,David Hsu
発行日 2023-07-21 03:00:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク