DiffVL: Scaling Up Soft Body Manipulation using Vision-Language Driven Differentiable Physics

要約

勾配ベースの軌道最適化と微分可能な物理シミュレーションを組み合わせるのは、ソフトボディ操作の問題を解決するための効率的な手法です。
適切に作成された最適化目標を使用すると、ソルバーは有効な軌道に迅速に収束できます。
ただし、適切な目的関数を作成するには専門知識が必要なため、専門家以外のユーザーから自然主義的な問題を大量に収集することが困難になります。
DiffVL は、専門家以外のユーザーでも、微分物理ソルバーで容易に活用できるソフトボディ操作タスク (複数の段階で与えられる視覚と自然言語の組み合わせ) を伝達できるようにする手法を紹介します。
私たちは、専門家以外のユーザーでも、オンライン ビデオからの現実のソフトボディ操作にインスピレーションを得た 100 のタスクを指定できる GUI ツールを開発しました。これを公開します。
大規模な言語モデルを活用して、タスクの説明を機械が解釈可能な最適化目標に変換します。
最適化目標は、微分可能物理ソルバーが、以前のベースラインでは困難だったこれらの長期にわたる多段階タスクを解決するのに役立ちます。

要約(オリジナル)

Combining gradient-based trajectory optimization with differentiable physics simulation is an efficient technique for solving soft-body manipulation problems. Using a well-crafted optimization objective, the solver can quickly converge onto a valid trajectory. However, writing the appropriate objective functions requires expert knowledge, making it difficult to collect a large set of naturalistic problems from non-expert users. We introduce DiffVL, a method that enables non-expert users to communicate soft-body manipulation tasks — a combination of vision and natural language, given in multiple stages — that can be readily leveraged by a differential physics solver. We have developed GUI tools that enable non-expert users to specify 100 tasks inspired by real-life soft-body manipulations from online videos, which we’ll make public. We leverage large language models to translate task descriptions into machine-interpretable optimization objectives. The optimization objectives can help differentiable physics solvers to solve these long-horizon multistage tasks that are challenging for previous baselines.

arxiv情報

著者 Zhiao Huang,Feng Chen,Yewen Pu,Chunru Lin,Hao Su,Chuang Gan
発行日 2023-12-11 14:29:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク