Integrating Disambiguation and User Preferences into Large Language Models for Robot Motion Planning

要約

この論文では、時間的要素を含む人間のナビゲーション コマンドを解釈し、その自然言語命令をロボットの動作計画に直接変換できるフレームワークを紹介します。
私たちのフレームワークの中心となるのは、Large Language Model (LLM) の利用です。
フレームワーク内の LLM の信頼性を高め、ユーザー エクスペリエンスを向上させるために、自然言語命令のあいまいさを解決し、ユーザーの好みを把握する方法を提案します。
このプロセスは曖昧性分類器から始まり、命令内の潜在的な不確実性を特定します。
あいまいなステートメントは、明確な質問を生成する GPT-4 ベースのメカニズムをトリガーし、曖昧さを解消するためのユーザーの応答を組み込みます。
また、このフレームワークは、曖昧さのない指示に対するユーザーの好みを評価して記録し、将来の対話を強化します。
このプロセスの最後の部分は、線形時相論理を使用して、明確な指示をロボットの動作計画に変換することです。
このペーパーでは、このフレームワークの開発と、さまざまなテスト シナリオでのパフォーマンスの評価について詳しく説明します。

要約(オリジナル)

This paper presents a framework that can interpret humans’ navigation commands containing temporal elements and directly translate their natural language instructions into robot motion planning. Central to our framework is utilizing Large Language Models (LLMs). To enhance the reliability of LLMs in the framework and improve user experience, we propose methods to resolve the ambiguity in natural language instructions and capture user preferences. The process begins with an ambiguity classifier, identifying potential uncertainties in the instructions. Ambiguous statements trigger a GPT-4-based mechanism that generates clarifying questions, incorporating user responses for disambiguation. Also, the framework assesses and records user preferences for non-ambiguous instructions, enhancing future interactions. The last part of this process is the translation of disambiguated instructions into a robot motion plan using Linear Temporal Logic. This paper details the development of this framework and the evaluation of its performance in various test scenarios.

arxiv情報

著者 Mohammed Abugurain,Shinkyu Park
発行日 2024-04-22 19:38:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY パーマリンク