Interaction is all You Need? A Study of Robots Ability to Understand and Execute

要約

この論文は、自然言語対話を通じてロボットが人間の環境でシームレスに動作できるようにするという、ロボット工学における重要な課題に取り組むことを目的としています。
私たちの主な焦点は、複雑なタスク解決シナリオを容易にするために、一貫したダイアログで複雑な命令を理解して実行できる能力をロボットに装備することです。
これを調査するために、Teach ベンチマークのダイアログ履歴からの実行 (EDH) タスクに基づいて構築します。
BART LMを搭載したマルチトランスモデルを採用しています。
最良の構成は、成功率スコア 8.85、目標条件付き成功率スコア 14.02 でベースラインを上回っていることがわかります。
さらに、このタスクを完了するための代替方法を提案します。
さらに、EDH タスクを拡張し、個々のアクションではなくゲーム プランについての予測を行うことで、新しいタスクを導入します。
複数の BART モデルと LLaMA2 LLM を評価し、このタスクで ROGUE-L スコア 46.77 を達成しました。

要約(オリジナル)

This paper aims to address a critical challenge in robotics, which is enabling them to operate seamlessly in human environments through natural language interactions. Our primary focus is to equip robots with the ability to understand and execute complex instructions in coherent dialogs to facilitate intricate task-solving scenarios. To explore this, we build upon the Execution from Dialog History (EDH) task from the Teach benchmark. We employ a multi-transformer model with BART LM. We observe that our best configuration outperforms the baseline with a success rate score of 8.85 and a goal-conditioned success rate score of 14.02. In addition, we suggest an alternative methodology for completing this task. Moreover, we introduce a new task by expanding the EDH task and making predictions about game plans instead of individual actions. We have evaluated multiple BART models and an LLaMA2 LLM, which has achieved a ROGUE-L score of 46.77 for this task.

arxiv情報

著者 Kushal Koshti,Nidhir Bhavsar
発行日 2023-11-13 08:39:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO パーマリンク