Reflectance Estimation for Proximity Sensing by Vision-Language Models: Utilizing Distributional Semantics for Low-Level Cognition in Robotics

要約

大規模言語モデル (LLM) とビジョン言語モデル (VLM) は、高レベルの認知のためにロボット工学でますます使用されていますが、センサー情報の解釈など、低レベルの認知への使用についてはまだ研究されていません。
ロボットによる掴みでは、物体の反射率を推定することが、近接センサーによって測定される距離に大きな影響を与えるため、掴みを成功させるために非常に重要です。
私たちは、LLM が分布セマンティクスに組み込まれた人間の知識を活用してオブジェクト名のみから反射率を推定できるかどうか、また VLM の言語の潜在構造が画像ベースの反射率推定にプラスの影響を与えるかどうかを調査します。
この論文では、1) GPT-3.5 や GPT-4 などの LLM は、入力としてテキストのみを使用してオブジェクトの反射率を推定できることを検証します。
2) CLIP などの VLM は、画像からの反射率推定における一般化機能を向上させることができます。
私たちの実験では、GPT-4 はテキスト入力のみを使用して物体の反射率を平均 14.7% で推定でき、画像のみの ResNet よりも低いことがわかりました。
さらに、CLIP は 11.8% という最低の平均誤差を達成しましたが、GPT-3.5 は ResNet の 17.8% と比較して競争力のある 19.9% を達成しました。
これらの結果は、LLM と VLM の分散セマンティクスが汎化能力を高め、VLM によって獲得された知識が言語の潜在構造から恩恵を受けることを示唆しています。

要約(オリジナル)

Large language models (LLMs) and vision-language models (VLMs) have been increasingly used in robotics for high-level cognition, but their use for low-level cognition, such as interpreting sensor information, remains underexplored. In robotic grasping, estimating the reflectance of objects is crucial for successful grasping, as it significantly impacts the distance measured by proximity sensors. We investigate whether LLMs can estimate reflectance from object names alone, leveraging the embedded human knowledge in distributional semantics, and if the latent structure of language in VLMs positively affects image-based reflectance estimation. In this paper, we verify that 1) LLMs such as GPT-3.5 and GPT-4 can estimate an object’s reflectance using only text as input; and 2) VLMs such as CLIP can increase their generalization capabilities in reflectance estimation from images. Our experiments show that GPT-4 can estimate an object’s reflectance using only text input with a mean error of 14.7%, lower than the image-only ResNet. Moreover, CLIP achieved the lowest mean error of 11.8%, while GPT-3.5 obtained a competitive 19.9% compared to ResNet’s 17.8%. These results suggest that the distributional semantics in LLMs and VLMs increases their generalization capabilities, and the knowledge acquired by VLMs benefits from the latent structure of language.

arxiv情報

著者 Masashi Osada,Gustavo A. Garcia Ricardez,Yosuke Suzuki,Tadahiro Taniguchi
発行日 2024-08-08 05:11:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク