要約
タスク指向の握り(TOG)は、ロボットタスクの実行のための不可欠な予備ステップです。これには、意図されたタスクを容易にするターゲットオブジェクトの領域を把握することが含まれます。
既存の文献では、大きな需要にもかかわらず、トレーニングとベンチマークのためのTOGデータセットの可用性が限られていることが明らかになりました。これは、多くの場合、モデルのパフォーマンスを妨げるマスク注釈にアーティファクトを持っていることがよくあります。
さらに、TOGソリューションでは、トレーニング用にアフォーダンスマスク、グラップ、オブジェクトマスクが必要になることがよくありますが、既存のデータセットは通常、これらの注釈のサブセットのみを提供します。
これらの制限に対処するために、TOGソリューションをトレーニングおよび評価するように設計されたトップダウンタスク指向のグラズピン(TD-TOG)データセットを紹介します。
TD-TOGは、30のオブジェクトカテゴリと120のサブカテゴリを含む1,449の実世界のRGB-Dシーンで構成され、手で発生したオブジェクトマスク、アフォーダンス、平面長方形の握りを備えています。
また、オブジェクトのサブカテゴリを区別するTOGソリューションの能力を評価する新しいチャレンジのテストセットも備えています。
再トレーニングなしで以前に見えなかったオブジェクトを適応および操作できるTOGソリューションの需要に貢献するために、新しいTOGフレームワークであるバイナリ-TOGを提案します。
Binary-TOGは、オブジェクト認識のためにゼロショットを使用し、アフォーダンス認識のためにワンショット学習を使用します。
ゼロショット学習により、バイナリ-TOGはテキストプロンプトを介してマルチオブジェクトシーンのオブジェクトを識別し、視覚的な参照の必要性を排除できます。
マルチオブジェクト設定では、バイナリ-TOGは、平均的なタスク指向の把握精度を68.9%に達成します。
最後に、このペーパーでは、将来のTOGソリューションの開発に使用されるTOGのオブジェクト一般化のためのワンショット学習とゼロショット学習の比較分析に提供されます。
要約(オリジナル)
Task-oriented grasping (TOG) is an essential preliminary step for robotic task execution, which involves predicting grasps on regions of target objects that facilitate intended tasks. Existing literature reveals there is a limited availability of TOG datasets for training and benchmarking despite large demand, which are often synthetic or have artifacts in mask annotations that hinder model performance. Moreover, TOG solutions often require affordance masks, grasps, and object masks for training, however, existing datasets typically provide only a subset of these annotations. To address these limitations, we introduce the Top-down Task-oriented Grasping (TD-TOG) dataset, designed to train and evaluate TOG solutions. TD-TOG comprises 1,449 real-world RGB-D scenes including 30 object categories and 120 subcategories, with hand-annotated object masks, affordances, and planar rectangular grasps. It also features a test set for a novel challenge that assesses a TOG solution’s ability to distinguish between object subcategories. To contribute to the demand for TOG solutions that can adapt and manipulate previously unseen objects without re-training, we propose a novel TOG framework, Binary-TOG. Binary-TOG uses zero-shot for object recognition, and one-shot learning for affordance recognition. Zero-shot learning enables Binary-TOG to identify objects in multi-object scenes through textual prompts, eliminating the need for visual references. In multi-object settings, Binary-TOG achieves an average task-oriented grasp accuracy of 68.9%. Lastly, this paper contributes a comparative analysis between one-shot and zero-shot learning for object generalization in TOG to be used in the development of future TOG solutions.
arxiv情報
著者 | Valerija Holomjova,Jamie Grech,Dewei Yi,Bruno Yun,Andrew Starkey,Pascal Meißner |
発行日 | 2025-06-05 20:37:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google