要約
人間が彫刻を作成するとき、目標を達成するために粘土の状態を幾何学的にどのように変更する必要があるかを推論することができます。
私たちは点ごとの類似性メトリクスを計算したり、ツールの低レベルの位置付けを推論したりするのではなく、行う必要があるより高いレベルの変更を決定します。
この研究では、大規模言語モデル (LLM) を活用して変形ベースのクラフト アクション シーケンスを反復的に推論し、生成する新しいパイプラインである LLM-Craft を提案します。
形状ベースの推論をさらに促進するために、状態とアクションの表現を単純化して結合します。
私たちの知る限り、LLM-Craft は、複雑な変形可能なオブジェクトの相互作用に LLM を活用することに成功した最初のシステムです。
私たちの実験を通じて、LLM-Craft フレームワークを使用すると、LLM が弾塑性オブジェクトの変形挙動を適切に推論できることが実証されました。
さらに、LLM-Craft が一連の単純な文字形状を正常に作成できることがわかりました。
最後に、「より薄い」または「でこぼこした」など、よりあいまいな意味論的な目標を達成するためにフレームワークを拡張することを検討します。
ビデオについては、当社の Web サイトをご覧ください: https://sites.google.com/andrew.cmu.edu/llmcraft。
要約(オリジナル)
When humans create sculptures, we are able to reason about how geometrically we need to alter the clay state to reach our target goal. We are not computing point-wise similarity metrics, or reasoning about low-level positioning of our tools, but instead determining the higher-level changes that need to be made. In this work, we propose LLM-Craft, a novel pipeline that leverages large language models (LLMs) to iteratively reason about and generate deformation-based crafting action sequences. We simplify and couple the state and action representations to further encourage shape-based reasoning. To the best of our knowledge, LLM-Craft is the first system successfully leveraging LLMs for complex deformable object interactions. Through our experiments, we demonstrate that with the LLM-Craft framework, LLMs are able to successfully reason about the deformation behavior of elasto-plastic objects. Furthermore, we find that LLM-Craft is able to successfully create a set of simple letter shapes. Finally, we explore extending the framework to reaching more ambiguous semantic goals, such as ‘thinner’ or ‘bumpy’. For videos please see our website: https://sites.google.com/andrew.cmu.edu/llmcraft.
arxiv情報
著者 | Alison Bartsch,Amir Barati Farimani |
発行日 | 2024-09-30 16:15:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google