Scene Understanding in Pick-and-Place Tasks: Analyzing Transformations Between Initial and Final Scenes

要約

日常業務においてロボットが人間と協働することが増えているため、環境を理解できるロボットシステムに向けた一歩を踏み出すことが重要です。
この研究では、シーンの理解に焦点を当てて、シーンからの最初と最終の画像が与えられたピック アンド プレース タスクを検出します。
この目的を達成するために、物体検出とピック アンド プレイス タスク検出用のデータセットが収集されます。
その後、YOLOv5 ネットワークは最初と最後のシーンでオブジェクトを検出するようにトレーニングされます。
検出されたオブジェクトとその境界ボックスを考慮して、最初のシーンを最終シーンに変換するピック アンド プレイス タスクを検出する 2 つの方法が提案されています。
2つのシーン内のオブジェクトの動きを追跡し、シーン内で移動した境界ボックスの交差に基づいて機能する幾何学的な方法が提案されています。
対照的に、CNN ベースの方法では、畳み込みニューラル ネットワークを利用して、交差する境界ボックスを持つオブジェクトを 5 つのクラスに分類し、関係するオブジェクト間の空間関係を示します。
実行されたピック アンド プレース タスクは、両方のシーンでの実験の分析から導出されます。
結果は、VGG16 バックボーンを使用した CNN ベースの手法が、特定のシナリオで幾何学的手法を約 12 パーセント上回り、全体の成功率が 84.3% であることを示しています。

要約(オリジナル)

With robots increasingly collaborating with humans in everyday tasks, it is important to take steps toward robotic systems capable of understanding the environment. This work focuses on scene understanding to detect pick and place tasks given initial and final images from the scene. To this end, a dataset is collected for object detection and pick and place task detection. A YOLOv5 network is subsequently trained to detect the objects in the initial and final scenes. Given the detected objects and their bounding boxes, two methods are proposed to detect the pick and place tasks which transform the initial scene into the final scene. A geometric method is proposed which tracks objects’ movements in the two scenes and works based on the intersection of the bounding boxes which moved within scenes. Contrarily, the CNN-based method utilizes a Convolutional Neural Network to classify objects with intersected bounding boxes into 5 classes, showing the spatial relationship between the involved objects. The performed pick and place tasks are then derived from analyzing the experiments with both scenes. Results show that the CNN-based method, using a VGG16 backbone, outscores the geometric method by roughly 12 percentage points in certain scenarios, with an overall success rate of 84.3%.

arxiv情報

著者 Seraj Ghasemi,Hamed Hosseini,MohammadHossein Koosheshi,Mehdi Tale Masouleh,Ahmad Kalhor
発行日 2024-09-26 10:43:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, cs.SY, eess.SY パーマリンク