要約
ChatGPT などの基盤モデルは、現実世界のドメインの普遍的な表現により、ロボット タスクにおいて大きな進歩を遂げました。
このペーパーでは、基礎モデルを活用して、幅広い産業用途を伴うロボット工学における永続的な課題である把握検出に取り組みます。
多数の把握データセットがあるにもかかわらず、それらのオブジェクトの多様性は現実世界の図形と比較して限られたままです。
幸いなことに、基礎モデルには、私たちが日常生活で遭遇する物体を含む、現実世界の知識の広範なリポジトリが含まれています。
結果として、以前の把握データセットの限られた表現に対する有望な解決策は、これらの基礎モデルに埋め込まれた普遍的な知識を利用することです。
このソリューションを実装するために基礎モデルから合成された新しい大規模な把握データセットである Grasp-Anything を紹介します。
Grasp-Anything は多様性と規模の点で優れており、テキスト説明を含む 100 万個のサンプルと 300 万個を超えるオブジェクトを誇り、以前のデータセットを上回っています。
私たちは経験的に、Grasp-Anything が視覚ベースのタスクや現実世界のロボット実験においてゼロショット把握検出を容易にすることに成功していることを示しています。
データセットとコードは https://grasp-anything-2023.github.io で入手できます。
要約(オリジナル)
Foundation models such as ChatGPT have made significant strides in robotic tasks due to their universal representation of real-world domains. In this paper, we leverage foundation models to tackle grasp detection, a persistent challenge in robotics with broad industrial applications. Despite numerous grasp datasets, their object diversity remains limited compared to real-world figures. Fortunately, foundation models possess an extensive repository of real-world knowledge, including objects we encounter in our daily lives. As a consequence, a promising solution to the limited representation in previous grasp datasets is to harness the universal knowledge embedded in these foundation models. We present Grasp-Anything, a new large-scale grasp dataset synthesized from foundation models to implement this solution. Grasp-Anything excels in diversity and magnitude, boasting 1M samples with text descriptions and more than 3M objects, surpassing prior datasets. Empirically, we show that Grasp-Anything successfully facilitates zero-shot grasp detection on vision-based tasks and real-world robotic experiments. Our dataset and code are available at https://grasp-anything-2023.github.io.
arxiv情報
著者 | An Dinh Vuong,Minh Nhat Vu,Hieu Le,Baoru Huang,Binh Huynh,Thieu Vo,Andreas Kugi,Anh Nguyen |
発行日 | 2023-09-18 14:39:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google