GG-LLM: Geometrically Grounding Large Language Models for Zero-shot Human Activity Forecasting in Human-Aware Task Planning

要約

人間中心の環境におけるロボットは、安全かつ効果的な動作を確保するために、タスクと動作の計画において人間の意図と将来の動作を考慮する必要があります。
これには、起こり得る将来のアクションに関する象徴的な推論と、これらのアクションを物理環境内の特定の場所に結び付ける能力が必要です。
過去の活動から人間の動きを予測できる行動モデルをトレーニングすることはできますが、このアプローチでは許容可能な長期予測を達成するために大量のデータが必要です。
さらに重要なのは、結果として得られるモデルが特定のデータ形式とモダリティに制限されることです。
さらに、そのようなモデルからの予測を現在の環境に結び付けて、これらの予測の適用性を確保することは未解決の問題です。
私たちは、大規模言語モデル (LLM) を利用して、微調整することなくさまざまなモダリティから人間の次の行動を推測するシステムを紹介します。
ロボット工学アプリケーションにとって重要な私たちのシステムの新しい側面は、予測されたアクションを環境のセマンティック マップ内の特定の場所にリンクすることです。
私たちの方法は、典型的な人間の行動を記述する膨大なテキストのコーパスで訓練された LLM が、人間の行動や活動のありそうなシーケンスを含む実質的な世界知識をコード化しているという事実を利用しています。
私たちは、これらの局所的な活動予測を支援ロボット用の人間認識タスク プランナーにどのように組み込んで、人間とロボットの望ましくない相互作用の発生を平均 29.2% 削減できるかを実証します。

要約(オリジナル)

A robot in a human-centric environment needs to account for the human’s intent and future motion in its task and motion planning to ensure safe and effective operation. This requires symbolic reasoning about probable future actions and the ability to tie these actions to specific locations in the physical environment. While one can train behavioral models capable of predicting human motion from past activities, this approach requires large amounts of data to achieve acceptable long-horizon predictions. More importantly, the resulting models are constrained to specific data formats and modalities. Moreover, connecting predictions from such models to the environment at hand to ensure the applicability of these predictions is an unsolved problem. We present a system that utilizes a Large Language Model (LLM) to infer a human’s next actions from a range of modalities without fine-tuning. A novel aspect of our system that is critical to robotics applications is that it links the predicted actions to specific locations in a semantic map of the environment. Our method leverages the fact that LLMs, trained on a vast corpus of text describing typical human behaviors, encode substantial world knowledge, including probable sequences of human actions and activities. We demonstrate how these localized activity predictions can be incorporated in a human-aware task planner for an assistive robot to reduce the occurrences of undesirable human-robot interactions by 29.2% on average.

arxiv情報

著者 Moritz A. Graule,Volkan Isler
発行日 2023-10-30 21:36:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク