Foundational Model for Electron Micrograph Analysis: Instruction-Tuning Small-Scale Language-and-Vision Assistant for Enterprise Adoption

要約

半導体のイメージングと分析は重要であるにもかかわらず、ディープラーニングの研究が不十分であり、半導体製造における正確な制御と最適化の能力が制限されています。
ビジョン言語命令チューニングを通じて半導体電子顕微鏡画像 (MAEMI) を解析するための小規模マルチモーダル フレームワークを紹介します。
顕微鏡画像解析における大規模なマルチモーダル モデルを使用して、カスタマイズされた命令に従うデータセットを生成します。
知識の蒸留を通じて、より大きなモデルからより小さなモデルへの知識の伝達を実行し、その結果、視覚的質問応答 (VQA) タスクにおける小さなモデルの精度が向上します。
このアプローチにより、顕微鏡画像解析タスクのために人間の専門家が注釈を付けた高価なデータセットが不要になります。
企業は知的データに基づいて MAEMI をさらに微調整し、低コストの消費者向けハードウェアでのプライバシーとパフォーマンスを強化できます。
私たちの実験では、MAEMI が従来の方法を上回っており、データ分布の変化に適応し、ハイスループットのスクリーニングをサポートしていることが示されています。

要約(オリジナル)

Semiconductor imaging and analysis are critical yet understudied in deep learning, limiting our ability for precise control and optimization in semiconductor manufacturing. We introduce a small-scale multimodal framework for analyzing semiconductor electron microscopy images (MAEMI) through vision-language instruction tuning. We generate a customized instruction-following dataset using large multimodal models on microscopic image analysis. We perform knowledge transfer from larger to smaller models through knowledge distillation, resulting in improved accuracy of smaller models on visual question answering (VQA) tasks. This approach eliminates the need for expensive, human expert-annotated datasets for microscopic image analysis tasks. Enterprises can further finetune MAEMI on their intellectual data, enhancing privacy and performance on low-cost consumer hardware. Our experiments show that MAEMI outperforms traditional methods, adapts to data distribution shifts, and supports high-throughput screening.

arxiv情報

著者 Sakhinana Sagar Srinivas,Chidaksh Ravuru,Geethan Sannidhi,Venkataramana Runkana
発行日 2024-08-23 17:42:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク