要約
テキストから画像への生成モデルは、グラフィック デザイン、ユーザー インターフェイス デザイン、ファッション デザインなど、さまざまな創造的な領域でコンセプト生成中にデザイナーを支援するために使用されることが増えています。
ただし、実現可能な設計コンセプトのイメージを生成する際のモデルの課題により、工学設計におけるそれらの用途は依然として限定されています。
この問題を解決するために、本稿では、実現可能な CAD 画像の生成を促すことで設計の実現可能性を向上させる手法を紹介します。
この研究では、既製のテキストから画像へのモデルである Stable Diffusion 2.1 を使用した自転車設計タスクのケース スタディを通じて、この方法の有用性を調査します。
さまざまな自転車デザインのセットが、さまざまな CAD 画像プロンプトの重みを使用して 7 つの異なる世代設定で作成され、これらのデザインは認識された実現可能性と新規性によって評価されます。
結果は、CAD イメージ プロンプトが、Stable Diffusion 2.1 のようなテキストからイメージへのモデルが目に見えてより実現可能なデザイン イメージを作成するのに成功していることを示しています。
実現可能性と新規性の間には一般的なトレードオフが観察されますが、プロンプトの重みを 0.35 程度に低く保つと、新規性がテキスト プロンプトのみによって生成されるものと同等のままでありながら、設計の実現可能性が大幅に向上します。
このケーススタディからの洞察は、エンジニアリング設計プロセスのさまざまな段階での適切な CAD イメージ プロンプトの重みを選択するためのガイドラインを提供します。
当社の CAD 画像プロンプト方法を効果的に利用すると、エンジニアリング設計におけるテキストから画像へのモデルの幅広い応用への扉が開きます。
要約(オリジナル)
Text-to-image generative models have increasingly been used to assist designers during concept generation in various creative domains, such as graphic design, user interface design, and fashion design. However, their applications in engineering design remain limited due to the models’ challenges in generating images of feasible designs concepts. To address this issue, this paper introduces a method that improves the design feasibility by prompting the generation with feasible CAD images. In this work, the usefulness of this method is investigated through a case study with a bike design task using an off-the-shelf text-to-image model, Stable Diffusion 2.1. A diverse set of bike designs are produced in seven different generation settings with varying CAD image prompting weights, and these designs are evaluated on their perceived feasibility and novelty. Results demonstrate that the CAD image prompting successfully helps text-to-image models like Stable Diffusion 2.1 create visibly more feasible design images. While a general tradeoff is observed between feasibility and novelty, when the prompting weight is kept low around 0.35, the design feasibility is significantly improved while its novelty remains on par with those generated by text prompts alone. The insights from this case study offer some guidelines for selecting the appropriate CAD image prompting weight for different stages of the engineering design process. When utilized effectively, our CAD image prompting method opens doors to a wider range of applications of text-to-image models in engineering design.
arxiv情報
著者 | Leah Chong,Jude Rayan,Steven Dow,Ioanna Lykourentzou,Faez Ahmed |
発行日 | 2024-07-11 17:07:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google