要約
コンピューターは視覚だけで物体の物理的特性を認識できるのでしょうか?
認知科学と視覚科学の研究では、人間は純粋に視覚的な外観に基づいて材料を識別し、その物理的特性を推定することに優れていることが示されています。
この論文では、画像のコレクションを使用して物体の物理的特性を高密度に予測するための新しいアプローチを紹介します。
人間が視覚を通じて物理学を推論する方法に触発され、大規模な言語モデルを活用して各オブジェクトの候補材料を提案します。
次に、言語が埋め込まれた点群を構築し、ゼロショット カーネル回帰アプローチを使用して各 3D 点の物理的特性を推定します。
私たちの方法は正確で、注釈が不要で、オープンワールドのあらゆるオブジェクトに適用できます。
実験では、一般的な物体の質量や摩擦や硬度などの他の特性の推定など、さまざまな物理特性推論タスクにおける提案されたアプローチの有効性が実証されています。
要約(オリジナル)
Can computers perceive the physical properties of objects solely through vision? Research in cognitive science and vision science has shown that humans excel at identifying materials and estimating their physical properties based purely on visual appearance. In this paper, we present a novel approach for dense prediction of the physical properties of objects using a collection of images. Inspired by how humans reason about physics through vision, we leverage large language models to propose candidate materials for each object. We then construct a language-embedded point cloud and estimate the physical properties of each 3D point using a zero-shot kernel regression approach. Our method is accurate, annotation-free, and applicable to any object in the open world. Experiments demonstrate the effectiveness of the proposed approach in various physical property reasoning tasks, such as estimating the mass of common objects, as well as other properties like friction and hardness.
arxiv情報
著者 | Albert J. Zhai,Yuan Shen,Emily Y. Chen,Gloria X. Wang,Xinlei Wang,Sheng Wang,Kaiyu Guan,Shenlong Wang |
発行日 | 2024-04-05 17:45:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google