‘Set It Up!’: Functional Object Arrangement with Compositional Generative Models

要約

この論文では、「2人用のダイニングテーブルを用意してください」など、機能的なオブジェクトの配置を作成するための詳細な指示を理解できるロボットを開発するという課題について研究しています。
これまでの配置アプローチは、「オブジェクト A をテーブルに置く」など、より明示的な指示に焦点を当てていました。
指定されていない命令の解釈を学習するためのフレームワーク SetItUp を紹介します。
SetItUp は、少数のトレーニング サンプルと人間が作成したプログラム スケッチを使用して、特定のシーン タイプの配置ルールを明らかにします。
SetItUp は、オブジェクト間の抽象的な空間関係の中間的なグラフのような表現を利用することで、配置の問題を 2 つのサブ問題に分解します。i) 限られたデータから配置パターンを学習すること、および ii) これらの抽象的な関係をオブジェクトのポーズに基礎付けることです。
SetItUp は、大規模言語モデル (LLM) を利用して、満たすべき制約として新しいシーン内のオブジェクト間の抽象的な空間関係を提案します。
次に、これらの抽象的な関係に関連付けられた拡散モデルのライブラリを構成して、制約を満たすオブジェクトの姿勢を見つけます。
学習机、ダイニング テーブル、コーヒー テーブルで構成されるデータセットでフレームワークを検証し、その結果、既存のモデルと比較して、物理的に妥当で機能的で見た目にも美しいオブジェクトの配置を生成する優れたパフォーマンスが示されました。

要約(オリジナル)

This paper studies the challenge of developing robots capable of understanding under-specified instructions for creating functional object arrangements, such as ‘set up a dining table for two’; previous arrangement approaches have focused on much more explicit instructions, such as ‘put object A on the table.’ We introduce a framework, SetItUp, for learning to interpret under-specified instructions. SetItUp takes a small number of training examples and a human-crafted program sketch to uncover arrangement rules for specific scene types. By leveraging an intermediate graph-like representation of abstract spatial relationships among objects, SetItUp decomposes the arrangement problem into two subproblems: i) learning the arrangement patterns from limited data and ii) grounding these abstract relationships into object poses. SetItUp leverages large language models (LLMs) to propose the abstract spatial relationships among objects in novel scenes as the constraints to be satisfied; then, it composes a library of diffusion models associated with these abstract relationships to find object poses that satisfy the constraints. We validate our framework on a dataset comprising study desks, dining tables, and coffee tables, with the results showing superior performance in generating physically plausible, functional, and aesthetically pleasing object arrangements compared to existing models.

arxiv情報

著者 Yiqing Xu,Jiayuan Mao,Yilun Du,Tomas Lozáno-Pérez,Leslie Pack Kaebling,David Hsu
発行日 2024-05-20 10:06:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク