要約
Cephalo は、材料科学アプリケーション向けに設計された一連のマルチモーダル ビジョン大規模言語モデル (V-LLM) であり、理解を強化するために視覚データと言語データを統合します。
Cephalo の主要な革新は、その高度なデータセット生成方法です。
Cephalo は、数千の科学論文と科学に焦点を当てた Wikipedia データからの統合された画像データとテキスト データでトレーニングされており、複雑な視覚的シーンを解釈し、正確な言語説明を生成し、画像に関するクエリに効果的に回答できることを示しています。
ビジョン エンコーダと自己回帰トランスフォーマを組み合わせることで、マルチモーダルな自然言語理解をサポートします。これを他の生成手法と組み合わせて、画像からテキスト、そして 3D へのパイプラインを作成できます。
小規模なモデルからより有能なモデルを開発するために、専門家の混合手法とモデルの結合の両方を報告します。
私たちは、生物学的材料、破壊および工学解析、タンパク質生物物理学、昆虫の行動に基づいた生物からインスピレーションを得た設計を組み込んだ、さまざまなユースケースでモデルを検証します。
生成アプリケーションには、花粉からインスピレーションを得た建築材料などのバイオからインスピレーションを得たデザインや、日食の写真からバイオからインスピレーションを得た材料の微細構造の合成が含まれます。
一連の分子動力学結果による追加のモデル微調整は、材料の亀裂動力学や損傷だけでなく、応力や原子エネルギー分布の統計的特徴を正確に予測する Cephalo の強化された機能を実証します。
要約(オリジナル)
We present Cephalo, a series of multimodal vision large language models (V-LLMs) designed for materials science applications, integrating visual and linguistic data for enhanced understanding. A key innovation of Cephalo is its advanced dataset generation method. Cephalo is trained on integrated image and text data from thousands of scientific papers and science-focused Wikipedia data demonstrates can interpret complex visual scenes, generate precise language descriptions, and answer queries about images effectively. The combination of a vision encoder with an autoregressive transformer supports multimodal natural language understanding, which can be coupled with other generative methods to create an image-to-text-to-3D pipeline. To develop more capable models from smaller ones, we report both mixture-of-expert methods and model merging. We examine the models in diverse use cases that incorporate biological materials, fracture and engineering analysis, protein biophysics, and bio-inspired design based on insect behavior. Generative applications include bio-inspired designs, including pollen-inspired architected materials, as well as the synthesis of bio-inspired material microstructures from a photograph of a solar eclipse. Additional model fine-tuning with a series of molecular dynamics results demonstrate Cephalo’s enhanced capabilities to accurately predict statistical features of stress and atomic energy distributions, as well as crack dynamics and damage in materials.
arxiv情報
| 著者 | Markus J. Buehler |
| 発行日 | 2024-07-15 12:36:42+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google