LLMs for Robotic Object Disambiguation


事前トレーニングされた大規模言語モデル (LLM) の利点は、さまざまな言語処理タスクで明らかです。
私たちの研究は、これまで部分的に観察可能なマルコフ意思決定プロセス (POMDP) によってモデル化されてきた複雑な意思決定の課題を解決するための LLM の適性を明らかにしました。
私たちの研究の中心は、LLM のオブジェクト曖昧さ回避機能です。
テーブルトップ環境の曖昧さ回避タスク、つまりロボットのタスクが、任意の大規模で複雑なオブジェクトのクラスターからユーザーの目的のオブジェクトを識別して取得する意思決定問題への LLM の統合について詳しく説明します。
ゼロショット プロンプト エンジニアリング (詳細は付録を参照) を使用して複数のクエリを試行したにもかかわらず、LLM はシーンの説明で明示的に提供されていない機能を問い合わせるのに苦労しました。
これに応えて、私たちは、明確なクエリを提示する LLM の能力を向上させるために、数ショット プロンプト エンジニアリング システムを開発しました。
その結果、モデルは、利用可能な場合は指定された機能を使用し、必要に応じて新しい関連する機能を推論して、同じオプションに直面した場合でも、正確なデシジョン ツリーを正常に生成して正しいオブジェクトまでナビゲートできるようになります。


The advantages of pre-trained large language models (LLMs) are apparent in a variety of language processing tasks. But can a language model’s knowledge be further harnessed to effectively disambiguate objects and navigate decision-making challenges within the realm of robotics? Our study reveals the LLM’s aptitude for solving complex decision making challenges that are often previously modeled by Partially Observable Markov Decision Processes (POMDPs). A pivotal focus of our research is the object disambiguation capability of LLMs. We detail the integration of an LLM into a tabletop environment disambiguation task, a decision making problem where the robot’s task is to discern and retrieve a user’s desired object from an arbitrarily large and complex cluster of objects. Despite multiple query attempts with zero-shot prompt engineering (details can be found in the Appendix), the LLM struggled to inquire about features not explicitly provided in the scene description. In response, we have developed a few-shot prompt engineering system to improve the LLM’s ability to pose disambiguating queries. The result is a model capable of both using given features when they are available and inferring new relevant features when necessary, to successfully generate and navigate down a precise decision tree to the correct object–even when faced with identical options.


著者 Connie Jiang,Yiqing Xu,David Hsu
発行日 2024-01-07 04:46:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.RO パーマリンク