要約
構造化されていない環境で動作するロボットは、周囲を感知して解釈できなければなりません。
ロボット工学の分野における深層学習ベースのモデルの主な障害の 1 つは、さまざまな産業用途向けのドメイン固有のラベル付きデータがないことです。
この記事では、任意のサイズとオブジェクト タイプのラベル付き合成データセットを自動的に生成できる、オブジェクト検出のためのドメイン ランダム化に基づく sim2real 転移学習法を提案します。
続いて、最先端の畳み込みニューラル ネットワーク YOLOv4 をトレーニングして、さまざまな種類の産業用オブジェクトを検出します。
提案されたドメインのランダム化方法を使用すると、現実のギャップを満足のいくレベルまで縮小することができ、190 個の実数を含む手動で注釈を付けたデータセットで、ゼロ ショット転送とワンショット転送の場合に、それぞれ 86.32% と 97.38% の mAP50 スコアを達成できました。
画像。
GeForce RTX 2080 Ti GPU では、データ生成プロセスは画像ごとに 0.5 秒未満で済み、トレーニングは約 12 時間しか続かないため、当社のソリューションは産業用途に適しています。
さらに、トレーニング用に 1 つの実画像のみにアクセスできるため、同様のクラスのオブジェクトを確実に区別できます。
私たちの知る限り、これはこれまでのところこれらの制約を満たす唯一の作品です。
要約(オリジナル)
Robots working in unstructured environments must be capable of sensing and interpreting their surroundings. One of the main obstacles of deep-learning-based models in the field of robotics is the lack of domain-specific labeled data for different industrial applications. In this article, we propose a sim2real transfer learning method based on domain randomization for object detection with which labeled synthetic datasets of arbitrary size and object types can be automatically generated. Subsequently, a state-of-the-art convolutional neural network, YOLOv4, is trained to detect the different types of industrial objects. With the proposed domain randomization method, we could shrink the reality gap to a satisfactory level, achieving 86.32% and 97.38% mAP50 scores, respectively, in the case of zero-shot and one-shot transfers, on our manually annotated dataset containing 190 real images. Our solution fits for industrial use as the data generation process takes less than 0.5 s per image and the training lasts only around 12 h, on a GeForce RTX 2080 Ti GPU. Furthermore, it can reliably differentiate similar classes of objects by having access to only one real image for training. To our best knowledge, this is the only work thus far satisfying these constraints.
arxiv情報
著者 | Dániel Horváth,Gábor Erdős,Zoltán Istenes,Tomáš Horváth,Sándor Földi |
発行日 | 2022-10-25 08:39:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google