要約
このペーパーでは、コンビニエンスストアのマスキング製品の特定のドメイン内でロボット操作のためのオブジェクトマスキングの精度を強化するための新しいパイプラインを紹介します。
このアプローチは、2つの高度なAIモデル、ClipとSAMを統合し、相乗的な組み合わせとマルチモーダルデータの効果的な使用に焦点を当てています(画像とテキスト)。
グラデーションベースの注意メカニズムとカスタマイズされたデータセットを利用してパフォーマンスを微調整することに重点が置かれています。
Clip、Sam、およびGrad-Camは確立されたコンポーネントですが、この構造化されたパイプライン内での統合は、フィールドへの重要な貢献を表しています。
この複合アプローチを通じて生成される結果のセグメント化されたマスクは、ロボットシステムの入力として効果的に利用でき、コンビニエンスストア製品のコンテキストでより正確で適応的なオブジェクト操作を可能にします。
要約(オリジナル)
This paper introduces a novel pipeline to enhance the precision of object masking for robotic manipulation within the specific domain of masking products in convenience stores. The approach integrates two advanced AI models, CLIP and SAM, focusing on their synergistic combination and the effective use of multimodal data (image and text). Emphasis is placed on utilizing gradient-based attention mechanisms and customized datasets to fine-tune performance. While CLIP, SAM, and Grad- CAM are established components, their integration within this structured pipeline represents a significant contribution to the field. The resulting segmented masks, generated through this combined approach, can be effectively utilized as inputs for robotic systems, enabling more precise and adaptive object manipulation in the context of convenience store products.
arxiv情報
著者 | Muhammad A. Muttaqien,Tomohiro Motoda,Ryo Hanai,Domae Yukiyasu |
発行日 | 2025-02-26 05:30:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google