LOC-ZSON: Language-driven Object-Centric Zero-Shot Object Retrieval and Navigation

要約

この論文では、複雑なシーン内でのオブジェクト ナビゲーション タスクのための、新しい言語駆動型のオブジェクト中心の画像表現である LOC-ZSON を紹介します。
我々は、複雑なオブジェクトレベルのクエリを処理できる、視覚言語モデル (VLM) の微調整のためのオブジェクト中心の画像表現とそれに対応する損失を提案します。
さらに、新しい LLM ベースの拡張と、トレーニングおよびゼロショット推論中の安定性を実現するプロンプト テンプレートを設計します。
私たちはこのメソッドを Astro ロボットに実装し、それをシミュレート環境と現実世界の両方の環境に展開して、ゼロショット オブジェクト ナビゲーションを実現します。
私たちの提案した方法は、検索タスクのさまざまなベンチマーク設定でテキストから画像への再現率に関して 1.38 ~ 13.38% の改善を達成できることを示します。
オブジェクト ナビゲーションについては、シミュレーションと現実世界でのアプローチの利点を示し、ナビゲーションの成功率に関してそれぞれ 5% と 16.67% の向上を示しました。

要約(オリジナル)

In this paper, we present LOC-ZSON, a novel Language-driven Object-Centric image representation for object navigation task within complex scenes. We propose an object-centric image representation and corresponding losses for visual-language model (VLM) fine-tuning, which can handle complex object-level queries. In addition, we design a novel LLM-based augmentation and prompt templates for stability during training and zero-shot inference. We implement our method on Astro robot and deploy it in both simulated and real-world environments for zero-shot object navigation. We show that our proposed method can achieve an improvement of 1.38 – 13.38% in terms of text-to-image recall on different benchmark settings for the retrieval task. For object navigation, we show the benefit of our approach in simulation and real world, showing 5% and 16.67% improvement in terms of navigation success rate, respectively.

arxiv情報

著者 Tianrui Guan,Yurou Yang,Harry Cheng,Muyuan Lin,Richard Kim,Rajasimman Madhivanan,Arnie Sen,Dinesh Manocha
発行日 2024-05-08 18:45:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク