要約
ディープラーニングには大量のデータと、ラベル付けと拡張のための明確に定義されたパイプラインが必要です。
現在のソリューションは、バウンディング ボックス、ポリゴン、キー ポイントなどの専用の注釈タイプと形式を使用して、多数のコンピューター ビジョン タスクをサポートしています。
これらのアノテーションを 1 つのデータ形式に結合して、マルチタスク モデルなどのアプローチに利点を与えることができます。
ただし、私たちの知る限り、結合されたベンチマーク形式のエクスポート機能をサポートする利用可能なラベル付けツールはなく、すべての結合の変換をサポートする拡張ライブラリもありません。
この研究では、マルチタスク モデル (オブジェクトの検出、セグメンテーション、キー ポイントの抽出) をトレーニングするための視覚的なデータ アノテーションと拡張を使用して、これらの機能が紹介されています。
このツールは、2 つのロボット認識の使用例で実証されています。
要約(オリジナル)
Deep learning requires large amounts of data, and a well-defined pipeline for labeling and augmentation. Current solutions support numerous computer vision tasks with dedicated annotation types and formats, such as bounding boxes, polygons, and key points. These annotations can be combined into a single data format to benefit approaches such as multi-task models. However, to our knowledge, no available labeling tool supports the export functionality for a combined benchmark format, and no augmentation library supports transformations for the combination of all. In this work, these functionalities are presented, with visual data annotation and augmentation to train a multi-task model (object detection, segmentation, and key point extraction). The tools are demonstrated in two robot perception use cases.
arxiv情報
著者 | G. Sharma,A. Angleraud,R. Pieters |
発行日 | 2023-11-30 07:10:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google