要約
材料科学や工学などの分野におけるドメイン アプリケーション向けの大規模言語モデル (LLM) の進歩は、特殊な技術的能力に合わせてモデルを適応させる微調整戦略の開発にかかっています。
この研究では、継続的事前トレーニング (CPT)、教師あり微調整 (SFT)、および直接優先最適化 (DPO) やオッズ比優先最適化 (ORPO) を含むさまざまな優先ベースの最適化アプローチの、微調整に対する影響を調査します。
LLM のパフォーマンスを調整しました。
私たちの分析は、これらの戦略がモデルの結果にどのような影響を与えるかを示し、複数の微調整されたモデルを結合することで、親モデルの個々の貢献を超える機能の出現につながる可能性があることを明らかにしました。
モデルを結合すると、どちらの親モデルも単独では達成できなかった新しい機能が生まれ、ドメイン固有の評価のパフォーマンスが向上することがわかりました。
Llama 3.1 8B モデルや Mistral 7B モデルなど、さまざまなモデル アーキテクチャを使用した実験が示されており、同様の動作が観察されます。
この結果がはるかに小さいモデルにも当てはまるかどうかを調査するために、17 億個のパラメータを持つ小さな LLM を使用し、非常に小さな LLM がモデルのマージの下で必ずしも新しい機能を備えているわけではないことを示し、モデルのスケーリングが重要な要素である可能性があることを示唆しています。
人間と AI モデル間のオープンエンドでありながら一貫したチャット会話において、私たちの評価により、さまざまなモデルのバリアントがどのように機能するかについての詳細な洞察が明らかになり、最小のモデルが推論の深さ、創造性、明快さ、定量的などの主要な基準にわたって高い知能スコアを達成していることが示されました。
精度。
その他の実験には、生物材料にインスピレーションを得た建築原理に基づいて新しい微細構造、建築コンセプト、都市デザインを作成するための、異種の生物材料設計概念に基づく画像生成プロンプトの開発が含まれます。
要約(オリジナル)
The advancement of Large Language Models (LLMs) for domain applications in fields such as materials science and engineering depends on the development of fine-tuning strategies that adapt models for specialized, technical capabilities. In this work, we explore the effects of Continued Pretraining (CPT), Supervised Fine-Tuning (SFT), and various preference-based optimization approaches, including Direct Preference Optimization (DPO) and Odds Ratio Preference Optimization (ORPO), on fine-tuned LLM performance. Our analysis shows how these strategies influence model outcomes and reveals that the merging of multiple fine-tuned models can lead to the emergence of capabilities that surpass the individual contributions of the parent models. We find that model merging leads to new functionalities that neither parent model could achieve alone, leading to improved performance in domain-specific assessments. Experiments with different model architectures are presented, including Llama 3.1 8B and Mistral 7B models, where similar behaviors are observed. Exploring whether the results hold also for much smaller models, we use a tiny LLM with 1.7 billion parameters and show that very small LLMs do not necessarily feature emergent capabilities under model merging, suggesting that model scaling may be a key component. In open-ended yet consistent chat conversations between a human and AI models, our assessment reveals detailed insights into how different model variants perform and show that the smallest model achieves a high intelligence score across key criteria including reasoning depth, creativity, clarity, and quantitative precision. Other experiments include the development of image generation prompts based on disparate biological material design concepts, to create new microstructures, architectural concepts, and urban design based on biological materials-inspired construction principles.
arxiv情報
著者 | Wei Lu,Rachel K. Luu,Markus J. Buehler |
発行日 | 2024-09-05 11:49:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google