Learning Embeddings with Centroid Triplet Loss for Object Identification in Robotic Grasping

要約

基礎モデルは、ディープ ラーニングとコンピューター ビジョンにおける強いトレンドです。
これらのモデルは、開発者がアプリケーションに統合するために多少の微調整を必要としない、またはそれ以上の微調整を必要としないため、アプリケーションのベースとして機能します。
Segment Anything (SAM) などのゼロショット オブジェクト セグメンテーションの基礎モデルは、追加のオブジェクト情報なしで画像からセグメンテーション マスクを出力します。
パイプライン内でオブジェクト識別モデルが続く場合、トレーニングなしでオブジェクト検出を実行できます。
ここでは、そのような物体識別モデルのトレーニングに焦点を当てます。
オブジェクト識別モデルの実用上の重要な側面は、入力サイズが柔軟であることです。
オブジェクトの識別は画像検索の問題であるため、適切な方法では、入力画像の数を制限せずに(たとえば、固定サイズの集約レイヤーを使用することにより)マルチクエリのマルチギャラリーの状況を処理する必要があります。
このようなモデルをトレーニングするための重要なソリューションは、画像特徴を重心に集約する重心トリプレット損失 (CTL) です。
CTL は高い精度をもたらし、誤解を招くトレーニング信号を回避し、モデルの入力サイズを柔軟に保ちます。
私たちの実験では、ArmBench オブジェクト識別タスクに関する新しい最先端技術を確立し、モデルの一般的な適用可能性を示しています。
さらに、きめ細かい検出が必要な困難な HOPE データセット上で、統合された見えない物体検出パイプラインを実証します。
そこで、私たちのパイプラインは、データセット固有のデータでトレーニングされた関連メソッドに匹敵し、それを上回ります。

要約(オリジナル)

Foundation models are a strong trend in deep learning and computer vision. These models serve as a base for applications as they require minor or no further fine-tuning by developers to integrate into their applications. Foundation models for zero-shot object segmentation such as Segment Anything (SAM) output segmentation masks from images without any further object information. When they are followed in a pipeline by an object identification model, they can perform object detection without training. Here, we focus on training such an object identification model. A crucial practical aspect for an object identification model is to be flexible in input size. As object identification is an image retrieval problem, a suitable method should handle multi-query multi-gallery situations without constraining the number of input images (e.g. by having fixed-size aggregation layers). The key solution to train such a model is the centroid triplet loss (CTL), which aggregates image features to their centroids. CTL yields high accuracy, avoids misleading training signals and keeps the model input size flexible. In our experiments, we establish a new state of the art on the ArmBench object identification task, which shows general applicability of our model. We furthermore demonstrate an integrated unseen object detection pipeline on the challenging HOPE dataset, which requires fine-grained detection. There, our pipeline matches and surpasses related methods which have been trained on dataset-specific data.

arxiv情報

著者 Anas Gouda,Max Schwarz,Christopher Reining,Sven Behnke,Alice Kirchheim
発行日 2024-07-08 15:29:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク