Lang2LTL: Translating Natural Language Commands to Temporal Robot Task Specification

要約

自然言語は、一時的なタスクを実行するようにロボットをプログラムするための強力なモダリティを提供します。
線形時相論理 (LTL) は、時相タスクの正式な記述に明確なセマンティクスを提供します。
ただし、既存のアプローチでは、目に見えない環境で英語の文を同等の LTL 式に正確かつ堅牢に翻訳することはできません。
この問題に対処するために、Lang2LTL を提案します。これは、事前トレーニングされた大規模な言語モデルを活用して、まず自然言語コマンドから参照式を抽出し、次に式を現実世界のランドマークとオブジェクトに接地し、最後にコマンドを LTL に変換する新しいモジュラー システムです。
ロボットのタスク仕様。
任意のロボット システムは、その位置を追跡し、自由形式のテキストでラベル付けされたランドマークを含むセマンティック マップを持っている場合、追加のトレーニングなしで自然言語ナビゲーション コマンドを解釈できます。
OpenStreetMap (OSM) や CleanUp World (シミュレートされた家庭環境) などのマルチスケール ナビゲーション ドメインに一般化する最先端の機能を実証します。
Lang2LTL は、10,000 を超えるコマンドの新しいコーパスで評価された 22 の目に見えない OSM 環境で挑戦的な LTL 式を翻訳する際に平均 88.4% の精度を達成し、以前の SoTA よりも 22 倍優れています。
OSM データセットで最高のパフォーマンスを発揮する Lang2LTL モデルは、変更を加えなくても、CleanUp World のコマンドを 82.8% の精度で変換できます。
提案された包括的な評価手順の一環として、2,125 の一意の LTL 式を表す英語コマンドの新しいラベル付きデータセットを収集しました。これは、ロボット タスクの LTL 仕様に対する自然言語コマンドの史上最大のデータセットであり、最も多様な LTL 式を 40 倍以上使用しています。
以前の最大のデータセット。
最後に、Lang2LTL をプランナーと統合して、ラボで作成されたアナログの実世界環境で多段階のナビゲーション タスクを実行するように四足歩行ロボットに命令しました。

要約(オリジナル)

Natural language provides a powerful modality to program robots to perform temporal tasks. Linear temporal logic (LTL) provides unambiguous semantics for formal descriptions of temporal tasks. However, existing approaches cannot accurately and robustly translate English sentences to their equivalent LTL formulas in unseen environments. To address this problem, we propose Lang2LTL, a novel modular system that leverages pretrained large language models to first extract referring expressions from a natural language command, then ground the expressions to real-world landmarks and objects, and finally translate the command into an LTL task specification for the robot. It enables any robotic system to interpret natural language navigation commands without additional training, provided that it tracks its position and has a semantic map with landmarks labeled with free-form text. We demonstrate the state-of-the-art ability to generalize to multi-scale navigation domains such as OpenStreetMap (OSM) and CleanUp World (a simulated household environment). Lang2LTL achieves an average accuracy of 88.4% in translating challenging LTL formulas in 22 unseen OSM environments as evaluated on a new corpus of over 10,000 commands, 22 times better than the previous SoTA. Without modification, the best performing Lang2LTL model on the OSM dataset can translate commands in CleanUp World with 82.8% accuracy. As a part of our proposed comprehensive evaluation procedures, we collected a new labeled dataset of English commands representing 2,125 unique LTL formulas, the largest ever dataset of natural language commands to LTL specifications for robotic tasks with the most diverse LTL formulas, 40 times more than previous largest dataset. Finally, we integrated Lang2LTL with a planner to command a quadruped mobile robot to perform multi-step navigational tasks in an analog real-world environment created in the lab.

arxiv情報

著者 Jason Xinyu Liu,Ziyi Yang,Ifrah Idrees,Sam Liang,Benjamin Schornstein,Stefanie Tellex,Ankit Shah
発行日 2023-02-22 20:56:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.FL, cs.RO パーマリンク