要約
大規模言語モデル (LLM) の卓越した推論能力と膨大なトレーニング コーパスから学んだ広範な知識により、ロボット タスクに大規模言語モデル (LLM) を適用することへの関心が高まっています。
LLM はテキスト入力しか処理できないため、LLM を物理世界に接地することは依然として未解決の課題です。
大規模ビジョン言語モデル (LVLM) の最近の進歩により、視覚入力を組み込むことで物理世界をより包括的に理解できるようになり、言語のみよりも豊富なコンテキスト情報が提供されます。
この研究では、OpenAI による最先端の LVLM である GPT-4V(ision) を活用し、身体化されたエージェントが画像ベースの環境フィードバックを介して液体オブジェクトを認識できるようにする新しいパラダイムを提案しました。
具体的には、GPT-4V の物理的理解を利用して、非視覚的フィードバック (F/T センサー データなど) の視覚的表現 (時系列プロットなど) を解釈し、画像を使用して視覚と言語を超えたマルチモーダルな知覚を間接的に可能にしました。
プロキシ。
私たちは、さまざまな形状や材質の容器を備えた 10 種類の一般的な家庭用液体を使用してメソッドを評価しました。
私たちは、トレーニングや微調整を行わずに、ロボットが液体の物理的反応を間接的に認識し、その粘度を推定できることを実証しました。
また、インタラクションを通じて学習した視覚的属性と物理的属性を共同で推論することにより、私たちの方法は強い視覚的手がかり (例: 判読可能なテキストや記号が記載された容器ラベル) がない場合でも液体物体を認識でき、精度が 69.0% から向上することも示しました。
最高のパフォーマンスを発揮するビジョンのみのバリアントによって、86.0% に達しました。
要約(オリジナル)
There is a growing interest in applying large language models (LLMs) in robotic tasks, due to their remarkable reasoning ability and extensive knowledge learned from vast training corpora. Grounding LLMs in the physical world remains an open challenge as they can only process textual input. Recent advancements in large vision-language models (LVLMs) have enabled a more comprehensive understanding of the physical world by incorporating visual input, which provides richer contextual information than language alone. In this work, we proposed a novel paradigm that leveraged GPT-4V(ision), the state-of-the-art LVLM by OpenAI, to enable embodied agents to perceive liquid objects via image-based environmental feedback. Specifically, we exploited the physical understanding of GPT-4V to interpret the visual representation (e.g., time-series plot) of non-visual feedback (e.g., F/T sensor data), indirectly enabling multimodal perception beyond vision and language using images as proxies. We evaluated our method using 10 common household liquids with containers of various geometry and material. Without any training or fine-tuning, we demonstrated that our method can enable the robot to indirectly perceive the physical response of liquids and estimate their viscosity. We also showed that by jointly reasoning over the visual and physical attributes learned through interactions, our method could recognize liquid objects in the absence of strong visual cues (e.g., container labels with legible text or symbols), increasing the accuracy from 69.0% — achieved by the best-performing vision-only variant — to 86.0%.
arxiv情報
著者 | Wenqiang Lai,Yuan Gao,Tin Lun Lam |
発行日 | 2024-04-10 10:49:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google