Swiss DINO: Efficient and Versatile Vision Framework for On-device Personal Object Search

要約

この論文では、個人用デバイスにビジョン システムを搭載し、その場で家電製品をパーソナライズできるロボット家電製品の最近の傾向について取り上げます。
特に、私たちは個人物体検索という重要な技術的タスクを定式化して取り組みます。これには、ロボット機器によってキャプチャされた画像上の関心のある個人アイテムの位置特定と識別が含まれます。各アイテムは、いくつかの注釈付き画像によってのみ参照されます。
このタスクは、個人の視覚シーンを処理したり、特定の個人の物体を操作したりする必要がある(たとえば、把握やナビゲーションなど)ロボット家電やモバイル システムにとって非常に重要です。
実際には、パーソナル オブジェクトの検索には 2 つの主な技術的課題があります。
まず、ロボット ビジョン システムは、遮蔽や乱雑な状態でも多くのきめの細かいクラスを区別できる必要があります。
第 2 に、オンデバイス システムのリソース要件が厳しいため、少数ショット学習のためのほとんどの最先端手法の使用が制限され、多くの場合、オンデバイスの適応が妨げられます。
この研究では、スイス DINO を提案します。これは、強力なゼロショット汎化特性を持つことが示された、最近の DINOv2 トランスフォーマー モデルに基づく、ワンショット個人オブジェクト検索のためのシンプルかつ効果的なフレームワークです。
Swiss DINO は、難しいオンデバイスのパーソナライズされたシーン理解要件に対応し、適応トレーニングを必要としません。
一般的な軽量ソリューションと比較して、セグメンテーションと認識の精度が大幅に向上 (最大 55%) し、重いトランスベースのソリューションと比較して、バックボーン推論時間 (最大 100 倍) と GPU 消費量 (最大 10 倍) のフットプリントが大幅に削減されたことを示しています。
ソリューション。

要約(オリジナル)

In this paper, we address a recent trend in robotic home appliances to include vision systems on personal devices, capable of personalizing the appliances on the fly. In particular, we formulate and address an important technical task of personal object search, which involves localization and identification of personal items of interest on images captured by robotic appliances, with each item referenced only by a few annotated images. The task is crucial for robotic home appliances and mobile systems, which need to process personal visual scenes or to operate with particular personal objects (e.g., for grasping or navigation). In practice, personal object search presents two main technical challenges. First, a robot vision system needs to be able to distinguish between many fine-grained classes, in the presence of occlusions and clutter. Second, the strict resource requirements for the on-device system restrict the usage of most state-of-the-art methods for few-shot learning and often prevent on-device adaptation. In this work, we propose Swiss DINO: a simple yet effective framework for one-shot personal object search based on the recent DINOv2 transformer model, which was shown to have strong zero-shot generalization properties. Swiss DINO handles challenging on-device personalized scene understanding requirements and does not require any adaptation training. We show significant improvement (up to 55%) in segmentation and recognition accuracy compared to the common lightweight solutions, and significant footprint reduction of backbone inference time (up to 100x) and GPU consumption (up to 10x) compared to the heavy transformer-based solutions.

arxiv情報

著者 Kirill Paramonov,Jia-Xing Zhong,Umberto Michieli,Jijoong Moon,Mete Ozay
発行日 2024-07-10 11:05:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク