要約
この論文では、卓上シナリオで人間の自然なコマンドを解釈するように設計された新しいハイブリッド アルゴリズムを紹介します。
音声、ジェスチャー、シーンのコンテキストなどの複数の情報ソースを統合することで、システムはロボットに対する実行可能な指示を抽出し、関連するオブジェクトとアクションを識別します。
このシステムは、事前定義されたオブジェクト モデルに依存せずにゼロショット方式で動作するため、さまざまな環境での柔軟で適応的な使用が可能になります。
複数の深層学習モデルの統合を評価し、現実世界のロボット設定への展開への適合性を評価します。
私たちのアルゴリズムは、言語処理と視覚的根拠を組み合わせて、さまざまなタスクにわたって堅牢に実行します。
さらに、システムの評価に使用されるビデオ録画の小規模なデータセットをリリースします。
このデータセットは、人間がロボットに自然言語で指示を与える現実世界のインタラクションをキャプチャしており、人間とロボットのインタラクションに関する将来の研究に貢献します。
このシステムの長所と限界について、特にマルチモーダルなコマンド解釈を処理する方法と、安全で説明可能な意思決定を実現するための記号ロボット フレームワークに統合できる機能に焦点を当てて説明します。
要約(オリジナル)
This paper presents a novel hybrid algorithm designed to interpret natural human commands in tabletop scenarios. By integrating multiple sources of information, including speech, gestures, and scene context, the system extracts actionable instructions for a robot, identifying relevant objects and actions. The system operates in a zero-shot fashion, without reliance on predefined object models, enabling flexible and adaptive use in various environments. We assess the integration of multiple deep learning models, evaluating their suitability for deployment in real-world robotic setups. Our algorithm performs robustly across different tasks, combining language processing with visual grounding. In addition, we release a small dataset of video recordings used to evaluate the system. This dataset captures real-world interactions in which a human provides instructions in natural language to a robot, a contribution to future research on human-robot interaction. We discuss the strengths and limitations of the system, with particular focus on how it handles multimodal command interpretation, and its ability to be integrated into symbolic robotic frameworks for safe and explainable decision-making.
arxiv情報
著者 | Paul Gajewski,Antonio Galiza Cerdeira Gonzalez,Bipin Indurkhya |
発行日 | 2024-10-10 10:59:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google