要約
新しいシーンでのターゲットオブジェクトの検索など、オープンワールドのセマンティックナビゲーションタスク用のロボットを構築するにはどうすればよいでしょうか?
基礎モデルにはこれらのタスクに必要な豊富な知識と一般化が備わっていますが、それらを完全なロボット システムに接続するには適切なシーン表現が必要です。
私たちは、これらのモデルのオープンセット シーン情報を保持および編成するトポセマンティック表現であるオープン シーン グラフ (OSG) を使用してこれに対処し、さまざまな環境タイプに合わせて構成できる構造を備えています。
我々は、基礎モデルとOSGをオープンワールドオブジェクトゴールナビゲーション用のOpenSearchシステムに統合します。これは、多様な環境や実施形態にわたってゼロショットを一般化しながら、自然言語で指定されたオープンセットオブジェクトを検索することができます。
当社の OSG は、Large Language Model (LLM) を使用して推論を強化し、既存の LLM アプローチを上回る堅牢なオブジェクトと目標のナビゲーションを可能にします。
シミュレーションと現実世界での実験を通じて、さまざまな環境、ロボット、新しい命令にわたる OpenSearch の一般化を検証します。
要約(オリジナル)
How can we build robots for open-world semantic navigation tasks, like searching for target objects in novel scenes? While foundation models have the rich knowledge and generalisation needed for these tasks, a suitable scene representation is needed to connect them into a complete robot system. We address this with Open Scene Graphs (OSGs), a topo-semantic representation that retains and organises open-set scene information for these models, and has a structure that can be configured for different environment types. We integrate foundation models and OSGs into the OpenSearch system for Open World Object-Goal Navigation, which is capable of searching for open-set objects specified in natural language, while generalising zero-shot across diverse environments and embodiments. Our OSGs enhance reasoning with Large Language Models (LLM), enabling robust object-goal navigation outperforming existing LLM approaches. Through simulation and real-world experiments, we validate OpenSearch’s generalisation across varied environments, robots and novel instructions.
arxiv情報
著者 | Joel Loo,Zhanxin Wu,David Hsu |
発行日 | 2024-07-02 17:52:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google