要約
細心の注意を払って組み立てられたレゴのスポーツカーを備えた、机の上を片付けるという任務を負ったロボットを考えてみましょう。
人間は、「整理整頓」の一環としてスポーツカーを分解して片付けるのは適切ではないと認識するかもしれません。
ロボットはどのようにしてその結論に到達できるのでしょうか?
最近、常識的な推論を可能にするために大規模言語モデル (LLM) が使用されていますが、この推論を現実世界に根付かせることは困難になっています。
現実世界で推論するには、ロボットは受動的に LLM にクエリを実行するだけでなく、正しい決定を下すために必要な情報を環境から積極的に収集する必要があります。
たとえば、遮蔽された車があることを検出した後、ロボットは、それがレゴで作られた高度なモデルの車なのか、幼児が作ったおもちゃの車なのかを知るために、その車を積極的に認識する必要があるかもしれません。
私たちは、LLM とビジョン言語モデル (VLM) を活用して、ロボットが環境を積極的に認識して根拠のある常識的な推論を実行できるようにするアプローチを提案します。
私たちのフレームワークを大規模に評価するために、クリーニングが必要な 70 個の実世界の表面の画像を含む MessySurfaces データセットをリリースします。
さらに、慎重に設計された 2 つの表面上でロボットを使用したアプローチを説明します。
能動的知覚を使用しないベースラインと比較して、MessySurfaces ベンチマークでは平均 12.9% の改善、ロボット実験では平均 15% の改善が見られました。
私たちのアプローチのデータセット、コード、ビデオは、https://minaek.github.io/grounded_commonsense_reasoning でご覧いただけます。
要約(オリジナル)
Consider a robot tasked with tidying a desk with a meticulously constructed Lego sports car. A human may recognize that it is not appropriate to disassemble the sports car and put it away as part of the ‘tidying.’ How can a robot reach that conclusion? Although large language models (LLMs) have recently been used to enable commonsense reasoning, grounding this reasoning in the real world has been challenging. To reason in the real world, robots must go beyond passively querying LLMs and actively gather information from the environment that is required to make the right decision. For instance, after detecting that there is an occluded car, the robot may need to actively perceive the car to know whether it is an advanced model car made out of Legos or a toy car built by a toddler. We propose an approach that leverages an LLM and vision language model (VLM) to help a robot actively perceive its environment to perform grounded commonsense reasoning. To evaluate our framework at scale, we release the MessySurfaces dataset which contains images of 70 real-world surfaces that need to be cleaned. We additionally illustrate our approach with a robot on 2 carefully designed surfaces. We find an average 12.9% improvement on the MessySurfaces benchmark and an average 15% improvement on the robot experiments over baselines that do not use active perception. The dataset, code, and videos of our approach can be found at https://minaek.github.io/grounded_commonsense_reasoning.
arxiv情報
著者 | Minae Kwon,Hengyuan Hu,Vivek Myers,Siddharth Karamcheti,Anca Dragan,Dorsa Sadigh |
発行日 | 2024-02-19 02:39:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google