Cephalo: Multi-Modal Vision-Language Models for Bio-Inspired Materials Analysis and Design

要約

Cephalo は、材料科学アプリケーション向けに設計された一連のマルチモーダル ビジョン大規模言語モデル (V-LLM) であり、理解を強化するために視覚データと言語データを統合します。
Cephalo の主要な革新は、その高度なデータセット生成方法です。
Cephalo は、数千の科学論文と科学に焦点を当てた Wikipedia データからの統合された画像データとテキスト データでトレーニングされており、複雑な視覚的シーンを解釈し、正確な言語説明を生成し、画像に関するクエリに効果的に回答できることを示しています。
ビジョン エンコーダと自己回帰トランスフォーマを組み合わせることで、マルチモーダルな自然言語理解をサポートします。これを他の生成手法と組み合わせて、画像からテキスト、そして 3D へのパイプラインを作成できます。
小規模なモデルからより有能なモデルを開発するために、専門家の混合手法とモデルの結合の両方を報告します。
私たちは、生物学的材料、破壊および工学解析、タンパク質生物物理学、昆虫の行動に基づいた生物からインスピレーションを得た設計を組み込んだ、さまざまなユースケースでモデルを検証します。
生成アプリケーションには、花粉からインスピレーションを得た建築材料などのバイオからインスピレーションを得たデザインや、日食の写真からバイオからインスピレーションを得た材料の微細構造の合成が含まれます。
一連の分子動力学結果による追加のモデル微調整は、材料の亀裂動力学や損傷だけでなく、応力や原子エネルギー分布の統計的特徴を正確に予測する Cephalo の強化された機能を実証します。

要約(オリジナル)

We present Cephalo, a series of multimodal vision large language models (V-LLMs) designed for materials science applications, integrating visual and linguistic data for enhanced understanding. A key innovation of Cephalo is its advanced dataset generation method. Cephalo is trained on integrated image and text data from thousands of scientific papers and science-focused Wikipedia data demonstrates can interpret complex visual scenes, generate precise language descriptions, and answer queries about images effectively. The combination of a vision encoder with an autoregressive transformer supports multimodal natural language understanding, which can be coupled with other generative methods to create an image-to-text-to-3D pipeline. To develop more capable models from smaller ones, we report both mixture-of-expert methods and model merging. We examine the models in diverse use cases that incorporate biological materials, fracture and engineering analysis, protein biophysics, and bio-inspired design based on insect behavior. Generative applications include bio-inspired designs, including pollen-inspired architected materials, as well as the synthesis of bio-inspired material microstructures from a photograph of a solar eclipse. Additional model fine-tuning with a series of molecular dynamics results demonstrate Cephalo’s enhanced capabilities to accurately predict statistical features of stress and atomic energy distributions, as well as crack dynamics and damage in materials.

arxiv情報

著者 Markus J. Buehler
発行日 2024-07-15 12:36:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mes-hall, cond-mat.mtrl-sci, cs.CL, cs.CV, cs.LG パーマリンク