要約
本研究では、言語指示に従って自らの視覚を制御する単純な日常支援ロボットを開発する。
ロボットは、ユーザーの顔、手、画面を記録したり、目的の場所の画像をリモートでキャプチャしたりするなど、いくつかの日常タスクを実行します。
このようなロボットを構築するには、事前学習済みの大規模視覚言語モデルと低コスト、低剛性のロボット アームを組み合わせます。
ロボットの物理情報と視覚情報の相関関係はニューラルネットワークを用いて確率的に学習され、時間や環境の変化に基づく確率分布の変化は学習可能なネットワーク入力変数であるパラメトリックバイアスによって考慮されます。
実際のロボットアーム MyCobot を用いたオープンボキャブラリービュー制御実験により、この学習方法の有効性を実証します。
要約(オリジナル)
In this study, we develop a simple daily assistive robot that controls its own vision according to linguistic instructions. The robot performs several daily tasks such as recording a user’s face, hands, or screen, and remotely capturing images of desired locations. To construct such a robot, we combine a pre-trained large-scale vision-language model with a low-cost low-rigidity robot arm. The correlation between the robot’s physical and visual information is learned probabilistically using a neural network, and changes in the probability distribution based on changes in time and environment are considered by parametric bias, which is a learnable network input variable. We demonstrate the effectiveness of this learning method by open-vocabulary view control experiments with an actual robot arm, MyCobot.
arxiv情報
著者 | Kento Kawaharazuka,Naoaki Kanazawa,Yoshiki Obinata,Kei Okada,Masayuki Inaba |
発行日 | 2023-12-12 17:23:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google