要約
ロボットがオブジェクトを操作する能力は、視覚的認識に適したことに大きく依存しています。
散らかったシーンと高いオブジェクトの変動性を特徴とするドメインでは、ほとんどの方法では、トレーニングに対応できるモデルを目的として、手作業で解決された広大なラベル付きデータセットが必要です。
展開すると、なじみのないオブジェクトに一般化するという課題は、モデルがドメインとともに進化しなければならないことを意味します。
これに対処するために、半監視学習(SSL)とインタラクション(LTI)を介した学習(LTI)を組み合わせた新しいフレームワークを提案します。これにより、シーンの変化を観察することでモデルが学習できるようにし、相互作用シーケンスのキュレーションされたデータを必要とせずに一時的なギャップにもかかわらず視覚的な一貫性を活用します。
その結果、私たちのアプローチは、自己監視を介して部分的に注釈付きのデータを活用し、無効な静止画像から生成された擬似シーケンスを使用して時間的コンテキストを組み込みます。
2つの一般的なベンチマークであるArmbench Mix-Object-ToteとOCIDでメソッドを検証し、最先端のパフォーマンスを実現します。
特に、ARMBenchでは、$ \ Text {AP} _ {50} $ 86.37 $、ほぼ20ドルの$ 20 \%$の改善を達成し、注釈が非常に低いシナリオで顕著な結果を得て、$ \テキストを達成します。
{ap} _ {50} $ $ 84.89 $のスコア84.89ドルで、完全に注釈付きのカウンターパートでアームベンチで提示された$ 72 $と比較して、わずか1 $ 1 \%$ $ \%$ $ $ \%$が注釈付きデータです。
要約(オリジナル)
The ability of robots to manipulate objects relies heavily on their aptitude for visual perception. In domains characterized by cluttered scenes and high object variability, most methods call for vast labeled datasets, laboriously hand-annotated, with the aim of training capable models. Once deployed, the challenge of generalizing to unfamiliar objects implies that the model must evolve alongside its domain. To address this, we propose a novel framework that combines Semi-Supervised Learning (SSL) with Learning Through Interaction (LTI), allowing a model to learn by observing scene alterations and leverage visual consistency despite temporal gaps without requiring curated data of interaction sequences. As a result, our approach exploits partially annotated data through self-supervision and incorporates temporal context using pseudo-sequences generated from unlabeled still images. We validate our method on two common benchmarks, ARMBench mix-object-tote and OCID, where it achieves state-of-the-art performance. Notably, on ARMBench, we attain an $\text{AP}_{50}$ of $86.37$, almost a $20\%$ improvement over existing work, and obtain remarkable results in scenarios with extremely low annotation, achieving an $\text{AP}_{50}$ score of $84.89$ with just $1 \%$ of annotated data compared to $72$ presented in ARMBench on the fully annotated counterpart.
arxiv情報
著者 | Moshe Kimhi,David Vainshtein,Chaim Baskin,Dotan Di Castro |
発行日 | 2025-02-11 19:56:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google