CoFRIDA: Self-Supervised Fine-Tuning for Human-Robot Co-Painting

要約

FRIDA などのこれまでのロボットのペイントおよび描画作業は、シミュレーションと現実のギャップを減らし、ユーザーの入力モダリティを拡張することに焦点を当てていましたが、これらのシステムとの対話は一般に入力段階でのみ存在します。
インタラクティブな人間とロボットの共同ペイントをサポートするために、Collaborative FRIDA (CoFRIDA) ロボット ペイント フレームワークを導入します。このフレームワークは、人間の共同作業者によって既にペイントされたコンテンツを変更して操作することで共同ペイントできます。
FRIDA の大きな弱点であるテキストと画像の位置合わせを改善するために、私たちのシステムは事前にトレーニングされたテキストから画像へのモデルを使用します。
ただし、現実世界の共同ペイントのコンテキストで事前トレーニングされたモデルは、(1) ロボットの制約と能力を理解していない、(2) 非現実的な編集を行わずに共同ペイントを実行できないため、うまく機能しません。
キャンバスとコンテンツの上書き。
私たちは、両方の問題に対処できる自己監視型微調整手順を提案します。これにより、事前にトレーニングされた最先端のテキスト画像位置合わせモデルをロボットで使用して、物理世界での共同ペイントが可能になります。
当社のオープンソース アプローチである CoFRIDA は、空白のキャンバスと人間が作成した作品の両方から、FRIDA よりも明確に入力テキスト プロンプトと一致する絵画や図面を作成します。
より一般的には、私たちの微調整手順はロボットの制約と能力を基礎モデルにうまくエンコードし、シミュレーションと実際のギャップを削減する効果的な方法として有望な結果を示しています。

要約(オリジナル)

Prior robot painting and drawing work, such as FRIDA, has focused on decreasing the sim-to-real gap and expanding input modalities for users, but the interaction with these systems generally exists only in the input stages. To support interactive, human-robot collaborative painting, we introduce the Collaborative FRIDA (CoFRIDA) robot painting framework, which can co-paint by modifying and engaging with content already painted by a human collaborator. To improve text-image alignment, FRIDA’s major weakness, our system uses pre-trained text-to-image models; however, pre-trained models in the context of real-world co-painting do not perform well because they (1) do not understand the constraints and abilities of the robot and (2) cannot perform co-painting without making unrealistic edits to the canvas and overwriting content. We propose a self-supervised fine-tuning procedure that can tackle both issues, allowing the use of pre-trained state-of-the-art text-image alignment models with robots to enable co-painting in the physical world. Our open-source approach, CoFRIDA, creates paintings and drawings that match the input text prompt more clearly than FRIDA, both from a blank canvas and one with human created work. More generally, our fine-tuning procedure successfully encodes the robot’s constraints and abilities into a foundation model, showcasing promising results as an effective method for reducing sim-to-real gaps.

arxiv情報

著者 Peter Schaldenbrand,Gaurav Parmar,Jun-Yan Zhu,James McCann,Jean Oh
発行日 2024-02-21 00:24:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク