要約
人間には、潜在的な視覚言語的手がかりを抽出し、人間との相互作用を通じて状況を推測する生来の能力があります。
これにより、コラボレーション中に、一連のタスクの根底にある意図を事前に予測できるようになります。
対照的に、人間と協力するロボットエージェントは、基本的な指示に従ってタスクを完了したり、特定の手作りのトリガーを使用して、目標の完了に向けて作業するときに積極的なコラボレーションを開始したりします。
このようなロボットに最終目標について推論し、中間タスクを積極的に提案する能力を与えることで、人間とロボットのコラボレーションのためのより直感的な方法が生み出されるでしょう。
この目的を達成するために、シーンからの視覚的な手がかり、ユーザーからの言語コマンド、および以前のオブジェクト間の相互作用の知識を使用して、ユーザーが達成しようとしている根本的な目標を特定し、積極的に予測する学習ベースの方法を提案します。
具体的には、モーダル間およびモーダル内の依存関係をキャプチャして正確なシーンの説明を提供し、該当する場合はタスクを積極的に提案する、ビジョン言語マルチモーダルトランスフォーマーベースのアーキテクチャである ViLing-MMT を提案します。
提案したモデルをシミュレーションと現実世界のシナリオで評価します。
要約(オリジナル)
Humans possess the innate ability to extract latent visuo-lingual cues to infer context through human interaction. During collaboration, this enables proactive prediction of the underlying intention of a series of tasks. In contrast, robotic agents collaborating with humans naively follow elementary instructions to complete tasks or use specific hand-crafted triggers to initiate proactive collaboration when working towards the completion of a goal. Endowing such robots with the ability to reason about the end goal and proactively suggest intermediate tasks will engender a much more intuitive method for human-robot collaboration. To this end, we propose a learning-based method that uses visual cues from the scene, lingual commands from a user and knowledge of prior object-object interaction to identify and proactively predict the underlying goal the user intends to achieve. Specifically, we propose ViLing-MMT, a vision-language multimodal transformer-based architecture that captures inter and intra-modal dependencies to provide accurate scene descriptions and proactively suggest tasks where applicable. We evaluate our proposed model in simulation and real-world scenarios.
arxiv情報
著者 | Pranay Mathur |
発行日 | 2023-10-04 00:50:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google