GestureGPT: Toward Zero-shot Interactive Gesture Understanding and Grounding with Large Language Model Agents

要約

現在のジェスチャ インターフェイスは通常、ユーザーが事前定義されたセットからジェスチャを学習して実行することを要求するため、エクスペリエンスが不自然になります。
ユーザー定義のジェスチャをサポートするインターフェイスでは学習プロセスが不要ですが、ユーザーは依然としてジェスチャを自分でデモンストレーションし、特定のシステム機能に関連付ける必要があります。
ユーザーがジェスチャーを学習、デモンストレーション、または関連付けることを必要としない、自由形式のハンド ジェスチャー理解フレームワークである GestureGPT を紹介します。
私たちのフレームワークは、大規模言語モデル (LLM) の鋭い常識と強力な推論能力を活用して、自然言語の記述から自発的に実行されるジェスチャを理解し、それをインターフェイスが提供する機能に自動的にマッピングします。
より具体的には、当社のトリプル エージェント フレームワークには、手のランドマーク座標に基づいて手のポーズと動きの自然言語記述を自動的にセグメント化して定式化するジェスチャ記述エージェントが含まれています。
この記述は、ジェスチャ推論エージェントによって、自己推論と対話コンテキスト (対話履歴、視線データなど) に関するクエリを通じて解読され、コンテキスト管理エージェントがそれを編成して提供します。
反復的な交換の後、ジェスチャ推論エージェントはユーザーの意図を識別し、それを対話型機能に基づいて確立します。
私たちは、スマート ホームの制御とオンライン ビデオ ストリーミングという 2 つの現実世界のシナリオに基づいて概念的なフレームワークを検証しました。
ゼロショットの平均トップ 5 接地精度は、スマート ホーム タスクの場合は 83.59%、ビデオ ストリーミングの場合は 73.44% です。
また、モデル選択の理論的根拠、生成された記述の品質、一般化可能性などを含むフレームワークについての広範な議論も提供しました。

要約(オリジナル)

Current gesture interfaces typically demand users to learn and perform gestures from a predefined set, which leads to a less natural experience. Interfaces supporting user-defined gestures eliminate the learning process, but users still need to demonstrate and associate the gesture to a specific system function themselves. We introduce GestureGPT, a free-form hand gesture understanding framework that does not require users to learn, demonstrate, or associate gestures. Our framework leverages the large language model’s (LLM) astute common sense and strong inference ability to understand a spontaneously performed gesture from its natural language descriptions, and automatically maps it to a function provided by the interface. More specifically, our triple-agent framework involves a Gesture Description Agent that automatically segments and formulates natural language descriptions of hand poses and movements based on hand landmark coordinates. The description is deciphered by a Gesture Inference Agent through self-reasoning and querying about the interaction context (e.g., interaction history, gaze data), which a Context Management Agent organizes and provides. Following iterative exchanges, the Gesture Inference Agent discerns user intent, grounding it to an interactive function. We validated our conceptual framework under two real-world scenarios: smart home controlling and online video streaming. The average zero-shot Top-5 grounding accuracies are 83.59% for smart home tasks and 73.44% for video streaming. We also provided an extensive discussion of our framework including model selection rationale, generated description quality, generalizability etc.

arxiv情報

著者 Xin Zeng,Xiaoyu Wang,Tengxiang Zhang,Chun Yu,Shengdong Zhao,Yiqiang Chen
発行日 2024-06-21 10:12:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC パーマリンク