HuBo-VLM: Unified Vision-Language Model designed for HUman roBOt interaction tasks

要約

人間とロボットのインタラクションは、人間の指示に従ってロボットを誘導することを目的としたエキサイティングなタスクです。
人間の自然言語と機械コードの間には大きなギャップがあるため、エンドツーエンドの人間ロボット対話モデルはかなり困難です。
さらに、ロボットのセンサーから受け取る視覚情報もロボットにとって認識しにくい言語です。
この研究では、HuBo-VLM は、統合トランスフォーマー ベースの視覚言語モデルによる物体検出や視覚グラウンディングなど、人間とロボットの相互作用に関連する認識タスクに取り組むことを提案しています。
Talk2Car ベンチマークに関する広範な実験により、私たちのアプローチの有効性が実証されました。
コードは https://github.com/dzcgaara/HuBo-VLM で公開されます。

要約(オリジナル)

Human robot interaction is an exciting task, which aimed to guide robots following instructions from human. Since huge gap lies between human natural language and machine codes, end to end human robot interaction models is fair challenging. Further, visual information receiving from sensors of robot is also a hard language for robot to perceive. In this work, HuBo-VLM is proposed to tackle perception tasks associated with human robot interaction including object detection and visual grounding by a unified transformer based vision language model. Extensive experiments on the Talk2Car benchmark demonstrate the effectiveness of our approach. Code would be publicly available in https://github.com/dzcgaara/HuBo-VLM.

arxiv情報

著者 Zichao Dong,Weikun Zhang,Xufeng Huang,Hang Ji,Xin Zhan,Junbo Chen
発行日 2023-08-24 03:47:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク