要約
私たちは、エンジニアリング設計でディープジェネレーティブモデル (DGM) を有効にするためのデータセットを提供し、大規模な基礎モデルを利用してデータのラベル付けを自動化する方法を提案します。
GeoBiked は、構造的特徴と技術的特徴が注釈付けされた 4,355 枚の自転車画像を含むように厳選されており、次の 2 つの自動ラベリング技術を調査するために使用されます。 画像生成モデルからの統合された潜在特徴 (ハイパーフィーチャ) を利用して、幾何学的対応 (例: 自転車の位置) を検出します。
ホイールセンター)と構造画像の多様なテキスト記述の生成。
ビジョン言語モデル (VLM) である GPT-4o は、画像を分析し、システム プロンプトに合わせたさまざまな説明を生成するように指示されます。
テクニカル イメージを拡散ハイパーフィーチャとして表現することにより、それらの間の幾何学的対応を描くことが可能になります。
複数の注釈付きソース画像を提示することにより、目に見えないサンプル内の幾何学的な点の検出精度が向上します。
GPT-4o は、テクニカル イメージの正確な説明を生成するのに十分な機能を備えています。
イメージのみに基づいて生成を根拠づけると、多様な記述が得られますが、幻覚を引き起こします。一方、カテゴリー的なラベルに基づいて生成を根拠づけると、多様性が制限されます。
両方を入力として使用すると、創造性と正確性のバランスが取れます。
幾何学的対応にハイパーフィーチャを使用することに成功したことは、このアプローチが技術画像における一般的な点検出および注釈タスクに使用できることを示唆しています。
VLM を使用してこのような画像にテキストの説明をラベル付けすることは可能ですが、モデルの検出機能、慎重なプロンプト エンジニアリング、および入力情報の選択に依存します。
基礎モデルを工学設計に適用することはほとんど知られていません。
私たちは、この分野の DGM のトレーニング、微調整、調整を調査し、技術的なイメージを処理するための基礎モデルをブートストラップするアプローチを提案するデータセットでこのギャップを埋めることを目指しています。
要約(オリジナル)
We provide a dataset for enabling Deep Generative Models (DGMs) in engineering design and propose methods to automate data labeling by utilizing large-scale foundation models. GeoBiked is curated to contain 4 355 bicycle images, annotated with structural and technical features and is used to investigate two automated labeling techniques: The utilization of consolidated latent features (Hyperfeatures) from image-generation models to detect geometric correspondences (e.g. the position of the wheel center) in structural images and the generation of diverse text descriptions for structural images. GPT-4o, a vision-language-model (VLM), is instructed to analyze images and produce diverse descriptions aligned with the system-prompt. By representing technical images as Diffusion-Hyperfeatures, drawing geometric correspondences between them is possible. The detection accuracy of geometric points in unseen samples is improved by presenting multiple annotated source images. GPT-4o has sufficient capabilities to generate accurate descriptions of technical images. Grounding the generation only on images leads to diverse descriptions but causes hallucinations, while grounding it on categorical labels restricts the diversity. Using both as input balances creativity and accuracy. Successfully using Hyperfeatures for geometric correspondence suggests that this approach can be used for general point-detection and annotation tasks in technical images. Labeling such images with text descriptions using VLMs is possible, but dependent on the models detection capabilities, careful prompt-engineering and the selection of input information. Applying foundation models in engineering design is largely unexplored. We aim to bridge this gap with a dataset to explore training, finetuning and conditioning DGMs in this field and suggesting approaches to bootstrap foundation models to process technical images.
arxiv情報
著者 | Phillip Mueller,Sebastian Mueller,Lars Mikelsons |
発行日 | 2024-09-25 15:57:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google