From Concept to Manufacturing: Evaluating Vision-Language Models for Engineering Design

要約

AI の出現によりエンジニアリング デザインは変革を遂げており、製品、システム、サービスの計画へのアプローチ方法が新時代を迎えています。
大規模な言語モデルは、この変化を可能にする優れた機能を実証しています。
しかし、テキストが唯一の入力手段であるため、エンジニアが何世紀にもわたって使用し、慣れ親しんでいる大量の視覚的アーティファクトを活用することができません。
このギャップは GPT-4V などのマルチモーダル ビジョン言語モデルのリリースによって解決され、AI がより多くの種類のタスクに影響を与えることが可能になります。
これらの進歩を踏まえて、この文書では、概念設計、システムレベルおよび詳細設計、製造および検査の 4 つの主要領域に分類されるエンジニアリング設計タスクの幅広い領域にわたる、ビジョン言語モデルである GPT-4V の包括的な評価を示します。
、およびエンジニアリング教育タスク。
私たちの研究では、スケッチ類似性分析、ピュー図を使用したコンセプト選択、材料選択、工学図面分析、CAD 生成、トポロジー最適化、積層造形および減算製造のための設計、空間推論の課題、教科書の問題などの設計タスクにおける GPT-4V の機能を評価しています。
この構造化された評価を通じて、複雑な設計および製造の課題を処理する際の GPT-4V の熟練度を調査するだけでなく、複雑なエンジニアリング設計アプリケーションにおける GPT-4V の限界も特定します。
私たちの研究は、ビジョン言語モデルの将来の評価のための基礎を確立し、エンジニアリング設計と製造環境を革新し強化するためのその計り知れない可能性を強調します。
また、この分野の継続的な進歩と応用のために、1000 を超えるクエリを含む一連のベンチマーク テスト データセットにも貢献しています。

要約(オリジナル)

Engineering Design is undergoing a transformative shift with the advent of AI, marking a new era in how we approach product, system, and service planning. Large language models have demonstrated impressive capabilities in enabling this shift. Yet, with text as their only input modality, they cannot leverage the large body of visual artifacts that engineers have used for centuries and are accustomed to. This gap is addressed with the release of multimodal vision language models, such as GPT-4V, enabling AI to impact many more types of tasks. In light of these advancements, this paper presents a comprehensive evaluation of GPT-4V, a vision language model, across a wide spectrum of engineering design tasks, categorized into four main areas: Conceptual Design, System-Level and Detailed Design, Manufacturing and Inspection, and Engineering Education Tasks. Our study assesses GPT-4V’s capabilities in design tasks such as sketch similarity analysis, concept selection using Pugh Charts, material selection, engineering drawing analysis, CAD generation, topology optimization, design for additive and subtractive manufacturing, spatial reasoning challenges, and textbook problems. Through this structured evaluation, we not only explore GPT-4V’s proficiency in handling complex design and manufacturing challenges but also identify its limitations in complex engineering design applications. Our research establishes a foundation for future assessments of vision language models, emphasizing their immense potential for innovating and enhancing the engineering design and manufacturing landscape. It also contributes a set of benchmark testing datasets, with more than 1000 queries, for ongoing advancements and applications in this field.

arxiv情報

著者 Cyril Picard,Kristen M. Edwards,Anna C. Doris,Brandon Man,Giorgio Giannone,Md Ferdous Alam,Faez Ahmed
発行日 2023-11-21 15:20:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE パーマリンク