Prompt-responsive Object Retrieval with Memory-augmented Student-Teacher Learning

要約

入力プロンプトに対応する構築モデルは、機械学習の変革的な変化を表します。
このパラダイムは、クラッターの中でターゲットを絞った操作など、ロボット工学の問題に重大な可能性を秘めています。
この作業では、迅速な基礎モデルと補強学習(RL)を組み合わせて、ロボットが迅速な応答的な方法で器用な操作タスクを実行できるようにする新しいアプローチを提示します。
既存の方法は、高レベルのコマンドをきめ細かい器用な制御でリンクするのに苦労しています。
このギャップには、メモリが整った学生と教師の学習フレームワークで対処します。
ユーザープロンプトから関心のあるオブジェクトを推測するために、Perception BackboneとしてSegment-Anything 2(SAM 2)モデルを使用します。
検出は不完全ですが、それらの時間シーケンスは、記憶力モデルによる暗黙の状態推定のための豊富な情報を提供します。
私たちのアプローチは、乱雑なシーンからオブジェクトを選ぶ際に実証された迅速な応答ポリシーを成功裏に学習します。
ビデオとコードはhttps://memory-student-teacher.github.ioで入手できます

要約(オリジナル)

Building models responsive to input prompts represents a transformative shift in machine learning. This paradigm holds significant potential for robotics problems, such as targeted manipulation amidst clutter. In this work, we present a novel approach to combine promptable foundation models with reinforcement learning (RL), enabling robots to perform dexterous manipulation tasks in a prompt-responsive manner. Existing methods struggle to link high-level commands with fine-grained dexterous control. We address this gap with a memory-augmented student-teacher learning framework. We use the Segment-Anything 2 (SAM 2) model as a perception backbone to infer an object of interest from user prompts. While detections are imperfect, their temporal sequence provides rich information for implicit state estimation by memory-augmented models. Our approach successfully learns prompt-responsive policies, demonstrated in picking objects from cluttered scenes. Videos and code are available at https://memory-student-teacher.github.io

arxiv情報

著者 Malte Mosbach,Sven Behnke
発行日 2025-05-04 19:51:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク