要約
大規模ビジョン言語モデル (VLM) を活用して、画像やテキストの説明から 3D 衣服の推定、生成、編集を自動化する新しいアプローチである ChatGarment を紹介します。
現実世界のシナリオでは困難であったり、インタラクティブな編集機能が欠けていたこれまでの方法とは異なり、ChatGarment は、実際の画像やスケッチから縫製パターンを推定し、テキストの説明からパターンを生成し、ユーザーの指示に基づいて衣服を編集することが、すべてインタラクティブな対話内で可能です。
。
これらの縫製パターンを 3D 衣服にドレープすることができ、簡単にアニメーション化してシミュレーションすることができます。
これは、VLM を微調整して、衣服のタイプとスタイルのテキスト記述と連続的な数値属性の両方を含む JSON ファイルを直接生成することで実現されます。
この JSON ファイルは、プログラミング パラメトリック モデルを通じて縫製パターンを作成するために使用されます。
これをサポートするために、ガーメント タイプの対象範囲を拡大し、VLM を効率的に微調整できるように構造を簡素化することで、既存のプログラミング モデルである GarmentCode を改良しました。
さらに、自動化されたデータ パイプラインを通じて、画像と縫製パターン、およびテキストと縫製パターンのペアの大規模なデータセットを構築します。
広範な評価により、ChatGarment がマルチモーダル入力から衣服を正確に再構築、生成、編集できることが実証され、ファッションおよびゲーム アプリケーションのワークフローに革命をもたらす可能性が強調されています。
コードとデータは https://chatgarment.github.io/ で入手できます。
要約(オリジナル)
We introduce ChatGarment, a novel approach that leverages large vision-language models (VLMs) to automate the estimation, generation, and editing of 3D garments from images or text descriptions. Unlike previous methods that struggle in real-world scenarios or lack interactive editing capabilities, ChatGarment can estimate sewing patterns from in-the-wild images or sketches, generate them from text descriptions, and edit garments based on user instructions, all within an interactive dialogue. These sewing patterns can then be draped into 3D garments, which are easily animatable and simulatable. This is achieved by finetuning a VLM to directly generate a JSON file that includes both textual descriptions of garment types and styles, as well as continuous numerical attributes. This JSON file is then used to create sewing patterns through a programming parametric model. To support this, we refine the existing programming model, GarmentCode, by expanding its garment type coverage and simplifying its structure for efficient VLM fine-tuning. Additionally, we construct a large-scale dataset of image-to-sewing-pattern and text-to-sewing-pattern pairs through an automated data pipeline. Extensive evaluations demonstrate ChatGarment’s ability to accurately reconstruct, generate, and edit garments from multimodal inputs, highlighting its potential to revolutionize workflows in fashion and gaming applications. Code and data will be available at https://chatgarment.github.io/.
arxiv情報
著者 | Siyuan Bian,Chenghao Xu,Yuliang Xiu,Artur Grigorev,Zhen Liu,Cewu Lu,Michael J. Black,Yao Feng |
発行日 | 2024-12-23 18:59:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google