要約
我々は、低ランク適応(LoRA)に基づく深い層ごとのトークンレベルのアプローチを使用して、微調整された大規模言語モデルを作成するための専門家戦略の混合を報告します。
事前にトレーニングされた LoRA アダプターのセットから始めて、私たちのゲート戦略は隠れ状態を使用して適応されたレイヤーを動的に混合し、結果として得られる X-LoRA モデルがさまざまな機能を活用し、これまでに使用されたことのない深いレイヤーごとの組み合わせを作成して問題を解決できるようにします。
タスク。
この設計は、普遍性と多様性の生物学的原理に触発されており、ニューラル ネットワークの構成要素がさまざまな階層表現で再利用されます。
したがって、X-LoRA モデルは、基礎となる構造を変更する必要なく、既存の大規模言語モデル (LLM) に対して簡単に実装できます。
私たちは、生体材料分析、タンパク質の力学、設計に焦点を当てた、順方向/逆方向分析タスクや強化された推論能力を含む科学的機能を提供する、カスタマイズされた X-LoRA モデルを開発します。
この取り組みの影響には、強力なドメイン知識と知識分野全体を統合する機能を備えた、容易に拡張可能で適応可能なモデルへのアクセスが含まれます。
生物学、数学、推論、生物由来の材料、力学と材料、化学、タンパク質生物物理学、力学および量子力学に基づく分子特性の専門家をフィーチャーし、物理学に焦点を当てた一連のケーススタディを実施します。
私たちは、知識想起、タンパク質力学の順方向/逆方向タスク、タンパク質設計、オントロジー知識グラフ構築を含む敵対的エージェントモデリング、および分子設計を検討します。
このモデルは、タンパク質のナノ機械的特性や分子の量子機械的特性を定量的に予測できるだけでなく、結果を推論し、異なる分子の挙動を説明する可能性のあるメカニズムを正確に予測することもできます。
要約(オリジナル)
We report a mixture of expert strategy to create fine-tuned large language models using a deep layer-wise token-level approach based on low-rank adaptation (LoRA). Starting with a set of pre-trained LoRA adapters, our gating strategy uses the hidden states to dynamically mix adapted layers, allowing the resulting X-LoRA model to draw upon different capabilities and create never-before-used deep layer-wise combinations to solve tasks. The design is inspired by the biological principles of universality and diversity, where neural network building blocks are reused in different hierarchical manifestations. Hence, the X-LoRA model can be easily implemented for any existing large language model (LLM) without a need for modifications of the underlying structure. We develop a tailored X-LoRA model that offers scientific capabilities including forward/inverse analysis tasks and enhanced reasoning capability, focused on biomaterial analysis, protein mechanics and design. The impact of this work include access to readily expandable and adaptable models with strong domain knowledge and the capability to integrate across areas of knowledge. Featuring experts in biology, mathematics, reasoning, bio-inspired materials, mechanics and materials, chemistry, protein biophysics, mechanics and quantum-mechanics based molecular properties, we conduct a series of physics-focused case studies. We examine knowledge recall, protein mechanics forward/inverse tasks, protein design, adversarial agentic modeling including ontological knowledge graph construction, as well as molecular design. The model is capable not only of making quantitative predictions of nanomechanical properties of proteins or quantum mechanical molecular properties, but also reasons over the results and correctly predicts likely mechanisms that explain distinct molecular behaviors.
arxiv情報
著者 | Eric L. Buehler,Markus J. Buehler |
発行日 | 2024-03-30 20:18:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google