要約
物理的および社会的環境における指示の理解と従うことを総合的に評価するためのベンチマークである HandMeThat を紹介します。
以前のデータセットは主に言語の基礎付けと計画に焦点を当てていましたが、HandMeThat では、物理的 (オブジェクトの状態と関係) および社会的 (人間の行動と目標) の情報に基づいて、曖昧さを伴う人間の指示の解決を考慮しています。
HandMeThat には、人間とロボットのインタラクションに関する 10,000 のエピソードが含まれています。
各エピソードでは、ロボットはまず、内部の目標に向けた人間の行動の軌跡を観察します。
次に、ロボットは人間の指示を受け取り、その指示を通じて設定されたサブゴールを達成するために行動を起こす必要があります。
このペーパーでは、ロボットがテキスト コマンドを通じて仮想環境と対話する、ベンチマーク用のテキスト インターフェイスを紹介します。
私たちは、HandMeThat でいくつかのベースライン モデルを評価し、オフラインとオンラインの両方の強化学習アルゴリズムが HandMeThat ではパフォーマンスが低いことを示し、物理的および社会的な人間とロボットのコミュニケーションとインタラクションに関する将来の研究の余地が大きいことを示唆しています。
要約(オリジナル)
We introduce HandMeThat, a benchmark for a holistic evaluation of instruction understanding and following in physical and social environments. While previous datasets primarily focused on language grounding and planning, HandMeThat considers the resolution of human instructions with ambiguities based on the physical (object states and relations) and social (human actions and goals) information. HandMeThat contains 10,000 episodes of human-robot interactions. In each episode, the robot first observes a trajectory of human actions towards her internal goal. Next, the robot receives a human instruction and should take actions to accomplish the subgoal set through the instruction. In this paper, we present a textual interface for our benchmark, where the robot interacts with a virtual environment through textual commands. We evaluate several baseline models on HandMeThat, and show that both offline and online reinforcement learning algorithms perform poorly on HandMeThat, suggesting significant room for future work on physical and social human-robot communications and interactions.
arxiv情報
著者 | Yanming Wan,Jiayuan Mao,Joshua B. Tenenbaum |
発行日 | 2023-10-05 16:14:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google