DesignQA: A Multimodal Benchmark for Evaluating Large Language Models’ Understanding of Engineering Documentation

要約

この研究では、技術文書のエンジニアリング要件を理解し、適用する際のマルチモーダル大規模言語モデル (MLLM) の習熟度を評価することを目的とした新しいベンチマークである DesignQA を紹介します。
現実世界のエンジニアリングの課題に焦点を当てて開発された DesignQA は、Formula SAE 学生コンテストから得られたテキスト設計要件、CAD 画像、エンジニアリング図面などのマルチモーダル データを独自に組み合わせています。
多くの既存の MLLM ベンチマークとは異なり、DesignQA には、入力画像と入力ドキュメントが異なるソースから取得された、ドキュメントに基づいた視覚的な質問が含まれています。
このベンチマークは自動評価指標を備えており、要件に応じて設計する際にエンジニアが実行するタスクに基づいて、ルール理解、ルール準拠、ルール抽出のセグメントに分割されています。
私たちは GPT4 や LLaVA などの最先端のモデルをベンチマークに対して評価し、複雑なエンジニアリング文書を解釈する MLLM の能力に存在するギャップを明らかにします。
主要な調査結果は、MLLM が技術文書をナビゲートする可能性を実証している一方で、特に詳細な要件を正確に抽出してエンジニアリング設計に適用する場合には、実質的な制限が存在することを示唆しています。
このベンチマークは、AI サポートのエンジニアリング設計プロセスにおける将来の進歩の基礎を築きます。
DesignQA は、https://github.com/anniedris/design_qa/ で公開されています。

要約(オリジナル)

This research introduces DesignQA, a novel benchmark aimed at evaluating the proficiency of multimodal large language models (MLLMs) in comprehending and applying engineering requirements in technical documentation. Developed with a focus on real-world engineering challenges, DesignQA uniquely combines multimodal data-including textual design requirements, CAD images, and engineering drawings-derived from the Formula SAE student competition. Different from many existing MLLM benchmarks, DesignQA contains document-grounded visual questions where the input image and input document come from different sources. The benchmark features automatic evaluation metrics and is divided into segments-Rule Comprehension, Rule Compliance, and Rule Extraction-based on tasks that engineers perform when designing according to requirements. We evaluate state-of-the-art models like GPT4 and LLaVA against the benchmark, and our study uncovers the existing gaps in MLLMs’ abilities to interpret complex engineering documentation. Key findings suggest that while MLLMs demonstrate potential in navigating technical documents, substantial limitations exist, particularly in accurately extracting and applying detailed requirements to engineering designs. This benchmark sets a foundation for future advancements in AI-supported engineering design processes. DesignQA is publicly available at: https://github.com/anniedoris/design_qa/.

arxiv情報

著者 Anna C. Doris,Daniele Grandi,Ryan Tomich,Md Ferdous Alam,Hyunmin Cheong,Faez Ahmed
発行日 2024-04-11 16:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク