GOLLuM: Gaussian Process Optimized LLMs — Reframing LLM Finetuning through Bayesian Optimization

要約

大規模な言語モデル(LLM)は、潜在スペースで複雑な関係をエンコードできますが、不確実性の下で最適化のためにそれらを利用することは依然として困難です。
このギャップには、深いカーネル法を介してガウスプロセス(GP)の限界尤度最適化としてLLM Finetuningを再構築する新しいアーキテクチャで対処します。
GPSと共同で最適化されたLLMベースのディープカーネルを導入し、両方の利点を維持するために、ベイジアンの最適化のためのリッチで柔軟な入力スペースを提供し、GPSはより効率的なサンプリングのための予測不確実性でこの空間をモデル化します。
Buchwald-Hartwig反応の最適化に適用されるこの方法は、静的LLM埋め込みと比較して高性能反応の発見率をほぼ2倍にします(わずか50の最適化の繰り返しで上位5%の反応の24%から43%のカバレッジ)。
また、特殊な機能を必要とせずに、ドメイン固有の表現よりも14%の改善が見られます。
19のベンチマークにわたる広範な経験的評価 – 一般化学から反応および分子特性の最適化に至るまで – 私たちの方法の堅牢性、一般性、および一貫した改善を示しています:(1)タスク、(2)LLMアーキテクチャ(エンコーダー、デコーダー、エンコーダーデコード
(単一のデータセットで1回チューニング)。
最後に、これらの改善を説明します。周辺尤度による共同LLM-GP最適化は、対照的な学習を暗黙的に実行し、表現を調整して(1)より良い構造化された埋め込みスペース、(2)不確実性のキャリブレーションを改善し、(3)より効率的なサンプリング – 外部損失を必要とせずに。
この作業は、サンプル効率の高い最適化の実用的な進歩と、効果的なベイジアンの最適化を行うものに対する洞察の両方を提供します。

要約(オリジナル)

Large Language Models (LLMs) can encode complex relationships in their latent spaces, yet harnessing them for optimization under uncertainty remains challenging. We address this gap with a novel architecture that reframes LLM finetuning as Gaussian process (GP) marginal likelihood optimization via deep kernel methods. We introduce LLM-based deep kernels, jointly optimized with GPs to preserve the benefits of both – LLMs to provide a rich and flexible input space for Bayesian optimization and – GPs to model this space with predictive uncertainty for more efficient sampling. Applied to Buchwald-Hartwig reaction optimization, our method nearly doubles the discovery rate of high-performing reactions compared to static LLM embeddings (from 24% to 43% coverage of the top 5% reactions in just 50 optimization iterations). We also observe a 14% improvement over domain-specific representations without requiring specialized features. Extensive empirical evaluation across 19 benchmarks – ranging from general chemistry to reaction and molecular property optimization – demonstrates our method’s robustness, generality, and consistent improvements across: (1) tasks, (2) LLM architectures (encoder, decoder, encoder-decoder), (3) pretraining domains (chemistry-related or general-purpose) and (4) hyperparameter settings (tuned once on a single dataset). Finally, we explain these improvements: joint LLM-GP optimization through marginal likelihood implicitly performs contrastive learning, aligning representations to produce (1) better-structured embedding spaces, (2) improved uncertainty calibration, and (3) more efficient sampling – without requiring any external loss. This work provides both practical advances in sample-efficient optimization and insights into what makes effective Bayesian optimization.

arxiv情報

著者 Bojana Ranković,Philippe Schwaller
発行日 2025-04-08 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク