Tell and show: Combining multiple modalities to communicate manipulation tasks to a robot

要約

人間とロボットのコラボレーションがさらに普及するにつれて、ロボットとのより自然なコミュニケーション方法が求められています。
これには、いくつかのモダリティからのデータを、状況のコンテキストおよび背景知識と組み合わせることが含まれます。
現在の通信アプローチは通常、単一のモダリティのみに依存しているか、非常に厳格で、データの欠落、位置ずれ、ノイズの多いものに対して堅牢ではないことがよくあります。
この論文では、センサーフュージョンアプローチからインスピレーションを得て、複数のモダリティからの不確実な情報を組み合わせ、状況認識(たとえば、オブジェクトのプロパティやシーン設定の考慮)で情報を強化する新しい方法を提案します。
まず、シミュレートされた二峰性データセット (ジェスチャーと言語) で提案されたソリューションを評価し、いくつかのアブレーション実験によって、システムのさまざまなコンポーネントの重要性と、ノイズの多い、欠落した、または位置ずれした観測に対するその堅牢性を示します。
次に、モデルを実際のセットアップに実装して評価します。
人間とロボットのインタラクションでは、選択したアクションが実行される可能性が十分に高いかどうか、または説明を求めるために人間に問い合わせたほうがよいかどうかも考慮する必要があります。
これらの目的のために、微調整された固定しきい値と同様のパフォーマンスを示す、さまざまな種類のインタラクションに適切なしきい値を検出する適応エントロピー ベースのしきい値を使用してモデルを強化します。

要約(オリジナル)

As human-robot collaboration is becoming more widespread, there is a need for a more natural way of communicating with the robot. This includes combining data from several modalities together with the context of the situation and background knowledge. Current approaches to communication typically rely only on a single modality or are often very rigid and not robust to missing, misaligned, or noisy data. In this paper, we propose a novel method that takes inspiration from sensor fusion approaches to combine uncertain information from multiple modalities and enhance it with situational awareness (e.g., considering object properties or the scene setup). We first evaluate the proposed solution on simulated bimodal datasets (gestures and language) and show by several ablation experiments the importance of various components of the system and its robustness to noisy, missing, or misaligned observations. Then we implement and evaluate the model on the real setup. In human-robot interaction, we must also consider whether the selected action is probable enough to be executed or if we should better query humans for clarification. For these purposes, we enhance our model with adaptive entropy-based thresholding that detects the appropriate thresholds for different types of interaction showing similar performance as fine-tuned fixed thresholds.

arxiv情報

著者 Petr Vanc,Radoslav Skoviera,Karla Stepanova
発行日 2024-04-02 07:10:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO パーマリンク