Stability-Aware Training of Machine Learning Force Fields with Differentiable Boltzmann Estimators

要約

機械学習力場 (MLFF) は、分子動力学 (MD) シミュレーションの非経験的手法に代わる魅力的な代替手段です。
ただし、不安定なシミュレーションが生成される可能性があり、より長いタイムスケールで発生する現象をモデル化する能力が制限され、推定される観測量の品質が損なわれます。
これらの課題に対処するために、参照量子力学計算とシステム観測量からの共同監視を活用するマルチモーダル トレーニング手順である、安定性を考慮したボルツマン推定器 (StABlE) トレーニングを紹介します。
StABlE Training は、多くの MD シミュレーションを並行して繰り返し実行して不安定な領域を探し出し、参照観測値による監視を通じて不安定性を修正します。
当社は、暗黙的な微分手法をより広範なクラスの確率的アルゴリズムに一般化したボルツマン推定器を使用した MD シミュレーションを通じて、効率的なエンドツーエンドの自動微分を実現します。
アクティブラーニングに基づく既存の手法とは異なり、私たちのアプローチは追加の非経験的エネルギーを必要とせず、不安定性を修正するために計算を強制します。
私たちは、3 つの最新の MLFF アーキテクチャを使用して、有機分子、テトラペプチド、凝縮相システムにわたる方法論を実証します。
StABlE でトレーニングされたモデルは、シミュレーションの安定性、データ効率、参照観測値との一致において大幅な改善を達成します。
第一原理計算とともにオブザーバブルをトレーニング プロセスに組み込むことにより、StABlE トレーニングは、MLFF アーキテクチャおよびシステム全体に適用できる一般的な半経験的フレームワークとみなすことができます。
これにより、特に大規模な参照データセットがない場合に、安定した正確な MLFF をトレーニングするための強力なツールになります。

要約(オリジナル)

Machine learning force fields (MLFFs) are an attractive alternative to ab-initio methods for molecular dynamics (MD) simulations. However, they can produce unstable simulations, limiting their ability to model phenomena occurring over longer timescales and compromising the quality of estimated observables. To address these challenges, we present Stability-Aware Boltzmann Estimator (StABlE) Training, a multi-modal training procedure which leverages joint supervision from reference quantum-mechanical calculations and system observables. StABlE Training iteratively runs many MD simulations in parallel to seek out unstable regions, and corrects the instabilities via supervision with a reference observable. We achieve efficient end-to-end automatic differentiation through MD simulations using our Boltzmann Estimator, a generalization of implicit differentiation techniques to a broader class of stochastic algorithms. Unlike existing techniques based on active learning, our approach requires no additional ab-initio energy and forces calculations to correct instabilities. We demonstrate our methodology across organic molecules, tetrapeptides, and condensed phase systems, using three modern MLFF architectures. StABlE-trained models achieve significant improvements in simulation stability, data efficiency, and agreement with reference observables. By incorporating observables into the training process alongside first-principles calculations, StABlE Training can be viewed as a general semi-empirical framework applicable across MLFF architectures and systems. This makes it a powerful tool for training stable and accurate MLFFs, particularly in the absence of large reference datasets.

arxiv情報

著者 Sanjeev Raja,Ishan Amin,Fabian Pedregosa,Aditi S. Krishnapriyan
発行日 2024-10-10 17:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.mtrl-sci, cs.LG, physics.chem-ph, physics.comp-ph | コメントする

Features are fate: a theory of transfer learning in high-dimensional regression

要約

大規模な事前トレーニング済みニューラル ネットワークの出現により、そのような「基礎」モデルをデータが制限された下流タスクに適応させる方法が必要になりました。
ターゲット タスクがソース タスクによく似ている場合、微調整、優先度の最適化、および転移学習はすべて、これらの目的にうまく採用されていますが、「タスクの類似性」についての正確な理論的理解はまだ不足しています。
従来の通念では、$\phi$-divergences や積分確率メトリクスなど、ソース分布とターゲット分布の間の類似性の単純な尺度が転送の成功を直接予測できると考えられていますが、一般的にこれはそうではないという驚くべき事実を私たちは証明しています。
場合。
代わりに、転移学習に関して特徴中心の視点を採用し、ターゲット タスクが事前トレーニング済みモデルの特徴空間で適切に表現されている場合、転移学習がゼロからのトレーニングよりも優れていることを示す多くの理論的結果を確立します。
私たちは、転移学習の最小モデルとして深層線形ネットワークを研究します。このモデルでは、ターゲット データセット サイズと特徴空間の重なりの関数として転移性フェーズ ダイアグラムを分析的に特徴付けることができます。
このモデルでは、ソース タスクとターゲット タスクの間の特徴空間のオーバーラップが十分に強い場合、線形転送と微調整の両方によって、特にデータ制限が低い場合にパフォーマンスが向上することが厳密に確立されています。
これらの結果は、深層線形ネットワークにおける特徴学習ダイナミクスの新たな理解に基づいており、線形の場合について導いた厳密な結果が非線形ネットワークにも当てはまることを数値的に示しています。

要約(オリジナル)

With the emergence of large-scale pre-trained neural networks, methods to adapt such ‘foundation’ models to data-limited downstream tasks have become a necessity. Fine-tuning, preference optimization, and transfer learning have all been successfully employed for these purposes when the target task closely resembles the source task, but a precise theoretical understanding of ‘task similarity’ is still lacking. While conventional wisdom suggests that simple measures of similarity between source and target distributions, such as $\phi$-divergences or integral probability metrics, can directly predict the success of transfer, we prove the surprising fact that, in general, this is not the case. We adopt, instead, a feature-centric viewpoint on transfer learning and establish a number of theoretical results that demonstrate that when the target task is well represented by the feature space of the pre-trained model, transfer learning outperforms training from scratch. We study deep linear networks as a minimal model of transfer learning in which we can analytically characterize the transferability phase diagram as a function of the target dataset size and the feature space overlap. For this model, we establish rigorously that when the feature space overlap between the source and target tasks is sufficiently strong, both linear transfer and fine-tuning improve performance, especially in the low data limit. These results build on an emerging understanding of feature learning dynamics in deep linear networks, and we demonstrate numerically that the rigorous results we derive for the linear case also apply to nonlinear networks.

arxiv情報

著者 Javan Tahir,Surya Ganguli,Grant M. Rotskoff
発行日 2024-10-10 17:58:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする

Adam Exploits $\ell_\infty$-geometry of Loss Landscape via Coordinate-wise Adaptivity

要約

Adam は、言語モデルをトレーニングする際に SGD よりも優れたパフォーマンスを発揮します。
しかし、この利点は理論的には十分に理解されていません。Adam と SGD の以前の収束解析は主にステップ数 $T$ に焦点を当てており、非凸のケースではすでにミニマックス最適化されており、両方とも $\widetilde{O}(
T^{-1/4})$。
この研究では、優れた $\ell_\infty$-geometry の活用が SGD に対する Adam の主な利点であると主張します。
より具体的には、より一般的な $\ell_2$-geometry ではなく $\ell_\infty$-geometry の下で損失が滑らかであるという新しい仮定の下で、Adam の新しい収束解析を行います。これにより、GPT のより優れた経験的滑らかさ定数が得られます。
2 および ResNet モデル。
私たちの実験では、SGD がおそらく影響を受けないまま、有利な $\ell_\infty$-geometry が変更されると、Adam のパフォーマンスが大幅に低下することが確認されました。
また、新しいブロック単位の滑らかさの仮定の下で、収束解析をブロック単位の Adam に拡張します。

要約(オリジナル)

Adam outperforms SGD when training language models. Yet this advantage is not well-understood theoretically — previous convergence analysis for Adam and SGD mainly focuses on the number of steps $T$ and is already minimax-optimal in non-convex cases, which are both $\widetilde{O}(T^{-1/4})$. In this work, we argue that the exploitation of nice $\ell_\infty$-geometry is the key advantage of Adam over SGD. More specifically, we give a new convergence analysis for Adam under novel assumptions that loss is smooth under $\ell_\infty$-geometry rather than the more common $\ell_2$-geometry, which yields a much better empirical smoothness constant for GPT-2 and ResNet models. Our experiments confirm that Adam performs much worse when the favorable $\ell_\infty$-geometry is changed while SGD provably remains unaffected. We also extend the convergence analysis to blockwise Adam under novel blockwise smoothness assumptions.

arxiv情報

著者 Shuo Xie,Mohamad Amin Mohamadi,Zhiyuan Li
発行日 2024-10-10 17:58:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Efficient Dictionary Learning with Switch Sparse Autoencoders

要約

スパース オートエンコーダ (SAE) は、ニューラル ネットワークの活性化を人間が解釈可能な特徴に分解するための最近の技術です。
ただし、SAE がフロンティア モデルで表現されるすべての特徴を識別するには、モデルを非常に広い幅にスケールアップする必要があり、計算上の課題が生じます。
この研究では、SAE のトレーニングの計算コストを削減することを目的とした新しい SAE アーキテクチャである Switch Sparse Autoencoders を紹介します。
エキスパート モデルのまばらな混合からインスピレーションを得たスイッチ SAE は、より小規模な「エキスパート」 SAE 間でアクティベーション ベクトルをルーティングし、SAE がより多くの機能に効率的に拡張できるようにします。
スイッチ SAE と他の SAE アーキテクチャを比較する実験を紹介し、スイッチ SAE は、特定の固定トレーニング コンピューティング バジェットに対して、再構成とスパーシティ フロンティアにおいて大幅なパレート改善を実現することを発見しました。
また、複数の専門家間で機能のジオメトリを調査し、複数の専門家間で重複する機能を分析し、Switch SAE 機能が他の SAE アーキテクチャで見つかった機能と同様に解釈可能であることを検証します。

要約(オリジナル)

Sparse autoencoders (SAEs) are a recent technique for decomposing neural network activations into human-interpretable features. However, in order for SAEs to identify all features represented in frontier models, it will be necessary to scale them up to very high width, posing a computational challenge. In this work, we introduce Switch Sparse Autoencoders, a novel SAE architecture aimed at reducing the compute cost of training SAEs. Inspired by sparse mixture of experts models, Switch SAEs route activation vectors between smaller ‘expert’ SAEs, enabling SAEs to efficiently scale to many more features. We present experiments comparing Switch SAEs with other SAE architectures, and find that Switch SAEs deliver a substantial Pareto improvement in the reconstruction vs. sparsity frontier for a given fixed training compute budget. We also study the geometry of features across experts, analyze features duplicated across experts, and verify that Switch SAE features are as interpretable as features found by other SAE architectures.

arxiv情報

著者 Anish Mudide,Joshua Engels,Eric J. Michaud,Max Tegmark,Christian Schroeder de Witt
発行日 2024-10-10 17:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning

要約

人間の認知は系統的な構成性、つまり学習された有限の構成要素から無限の新しい組み合わせを生成する代数的能力を示し、これが複雑な論理を理解し推論するための鍵となります。
この研究では、数学的推論における大規模言語モデル (LLM) の構成性を調査します。
具体的には、注意深く設計された論理トラップを MATH と GSM8K の問題記述に導入することにより、新しいデータセット \textsc{MathTrap} を構築します。
論理的欠陥を伴う問題は現実の世界では非常にまれであるため、これらは LLM にとって「目に見えない」ケースとなります。
これらを解決するには、モデルが (1) 元の問題に含まれる数学的知識と (2) 導入されたトラップに関連する知識を体系的に構成する必要があります。
私たちの実験によると、LLM は必要な知識の両方の要素を持っていますが、それらを \textbf{自発的に}組み合わせてこれらの新しいケースを処理するわけではありません。
私たちは、自然言語プロンプト、数ショットのデモンストレーション、微調整など、この欠点を軽減するいくつかの方法を検討しています。
さらに、最近リリースされた OpenAI o1 モデルをテストしたところ、人間のような「遅い思考」が LLM の構成性の向上に役立つことがわかりました。
全体として、体系的な構成性は、大規模な言語モデルにとって未解決の課題のままです。

要約(オリジナル)

Human cognition exhibits systematic compositionality, the algebraic ability to generate infinite novel combinations from finite learned components, which is the key to understanding and reasoning about complex logic. In this work, we investigate the compositionality of large language models (LLMs) in mathematical reasoning. Specifically, we construct a new dataset \textsc{MathTrap} by introducing carefully designed logical traps into the problem descriptions of MATH and GSM8K. Since problems with logical flaws are quite rare in the real world, these represent ‘unseen’ cases to LLMs. Solving these requires the models to systematically compose (1) the mathematical knowledge involved in the original problems with (2) knowledge related to the introduced traps. Our experiments show that while LLMs possess both components of requisite knowledge, they do not \textbf{spontaneously} combine them to handle these novel cases. We explore several methods to mitigate this deficiency, such as natural language prompts, few-shot demonstrations, and fine-tuning. Additionally, we test the recently released OpenAI o1 model and find that human-like `slow thinking’ helps improve the compositionality of LLMs. Overall, systematic compositionality remains an open challenge for large language models.

arxiv情報

著者 Jun Zhao,Jingqi Tong,Yurong Mou,Ming Zhang,Qi Zhang,Xuanjing Huang
発行日 2024-10-10 14:38:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models

要約

大規模言語モデル (LLM) の最近の進歩により、数学的推論機能が大幅に進歩しました。
ただし、GSM8K や MATH などの既存のベンチマークは現在、高精度で解決されており (たとえば、OpenAI o1 は MATH データセットで 94.8% を達成)、これらのモデルに真に挑戦するには不十分であることが示されています。
このギャップを埋めるために、LLM の数学的推論をオリンピックレベルで評価するために特別に設計された、包括的で挑戦的なベンチマークを提案します。
既存のオリンピック関連のベンチマークとは異なり、私たちのデータセットは数学のみに焦点を当てており、厳密な人による注釈が付いた 4,428 個の競技レベルの問題の膨大なコレクションで構成されています。
これらの問題は 33 以上のサブドメインに細心の注意を払って分類されており、10 以上の異なる難易度にまたがっており、オリンピックの数学的推論におけるモデルのパフォーマンスの総合的な評価を可能にしています。
さらに、このベンチマークに基づいて詳細な分析を実施しました。
私たちの実験結果は、最も先進的なモデルである OpenAI o1-mini と OpenAI o1-preview でさえ、60.54% と 52.55% の精度で非常に難しいオリンピック レベルの問題に苦戦していることを示しており、オリンピック レベルの数学的推論における重大な課題を浮き彫りにしています。

要約(オリジナル)

Recent advancements in large language models (LLMs) have led to significant breakthroughs in mathematical reasoning capabilities. However, existing benchmarks like GSM8K or MATH are now being solved with high accuracy (e.g., OpenAI o1 achieves 94.8% on MATH dataset), indicating their inadequacy for truly challenging these models. To bridge this gap, we propose a comprehensive and challenging benchmark specifically designed to assess LLMs’ mathematical reasoning at the Olympiad level. Unlike existing Olympiad-related benchmarks, our dataset focuses exclusively on mathematics and comprises a vast collection of 4428 competition-level problems with rigorous human annotation. These problems are meticulously categorized into over 33 sub-domains and span more than 10 distinct difficulty levels, enabling a holistic assessment of model performance in Olympiad-mathematical reasoning. Furthermore, we conducted an in-depth analysis based on this benchmark. Our experimental results show that even the most advanced models, OpenAI o1-mini and OpenAI o1-preview, struggle with highly challenging Olympiad-level problems, with 60.54% and 52.55% accuracy, highlighting significant challenges in Olympiad-level mathematical reasoning.

arxiv情報

著者 Bofei Gao,Feifan Song,Zhe Yang,Zefan Cai,Yibo Miao,Qingxiu Dong,Lei Li,Chenghao Ma,Liang Chen,Runxin Xu,Zhengyang Tang,Benyou Wang,Daoguang Zan,Shanghaoran Quan,Ge Zhang,Lei Sha,Yichang Zhang,Xuancheng Ren,Tianyu Liu,Baobao Chang
発行日 2024-10-10 14:39:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Human and LLM Biases in Hate Speech Annotations: A Socio-Demographic Analysis of Annotators and Targets

要約

オンライン プラットフォームの台頭によりヘイトスピーチの蔓延が悪化し、スケーラブルで効果的な検出が求められています。
ただし、ヘイトスピーチ検出システムの精度は人間がラベルを付けたデータに大きく依存しており、データは本質的にバイアスの影響を受けやすいものです。
以前の研究ではこの問題が検討されましたが、アノテーターの特性とヘイトのターゲットの特性の間の相互作用はまだ解明されていません。
私たちは、アノテーターとターゲットの両方に関する豊富な社会人口統計情報を含む広範なデータセットを活用することでこのギャップを埋め、ターゲットの属性に関連して人間のバイアスがどのように現れるかを明らかにします。
私たちの分析により、広範なバイアスの存在が明らかになり、その強度と蔓延に基づいて定量的に記述および特徴付けられ、顕著な違いが明らかになります。
さらに、人間のバイアスとペルソナベースの LLM が示すバイアスを比較します。
私たちの調査結果は、ペルソナベースの LLM にはバイアスがあるものの、人間のアノテーターのバイアスとは大きく異なることを示しています。
全体として、私たちの研究は、ヘイトスピーチの注釈における人間の偏見に関する新しく微妙な結果を提供するとともに、AI 主導のヘイトスピーチ検出システムの設計についての新鮮な洞察を提供します。

要約(オリジナル)

The rise of online platforms exacerbated the spread of hate speech, demanding scalable and effective detection. However, the accuracy of hate speech detection systems heavily relies on human-labeled data, which is inherently susceptible to biases. While previous work has examined the issue, the interplay between the characteristics of the annotator and those of the target of the hate are still unexplored. We fill this gap by leveraging an extensive dataset with rich socio-demographic information of both annotators and targets, uncovering how human biases manifest in relation to the target’s attributes. Our analysis surfaces the presence of widespread biases, which we quantitatively describe and characterize based on their intensity and prevalence, revealing marked differences. Furthermore, we compare human biases with those exhibited by persona-based LLMs. Our findings indicate that while persona-based LLMs do exhibit biases, these differ significantly from those of human annotators. Overall, our work offers new and nuanced results on human biases in hate speech annotations, as well as fresh insights into the design of AI-driven hate speech detection systems.

arxiv情報

著者 Tommaso Giorgi,Lorenzo Cima,Tiziano Fagni,Marco Avvenuti,Stefano Cresci
発行日 2024-10-10 14:48:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | コメントする

Leveraging a Cognitive Model to Measure Subjective Similarity of Human and GPT-4 Written Content

要約

2 つのドキュメント間のコサイン類似度は、GPT-4 などの大規模言語モデル (LLM) によって形成されたトークン埋め込みを使用して計算でき、これらのドキュメントをさまざまな用途にわたって分類するために使用されます。
ただし、これらの類似性は最終的には、これらの LLM のトレーニングに使用されるコーパスに依存し、個人の主観的な類似性や、個人のバイアスや制約が類似性メトリックにどのように影響するかを反映していない可能性があります。
この類似性指標の認知を意識したパーソナライゼーションの欠如は、カテゴリや好みに関する個人の判断の数が限られており、偏見が特に関係する可能性がある教育および推奨の設定において特に問題となる可能性があります。
これに対処するために、インスタンスベース学習 (IBL) 認知モデルと LLM 埋め込みの統合に依存して、インスタンスベース個別類似性 (IBIS) メトリクスを開発します。
この類似性メトリクスは、意思決定の認知メカニズムに基づいた方法で個人のバイアスと制約を考慮に入れるという点で有益です。
IBIS メトリクスを評価するために、人間が電子メールを危険 (フィッシング) または安全 (ハム) として分類したデータセットも導入します。
このデータセットは、教育現場における人間の参加者の主観的な類似性を測定するために認知モデルを活用する利点を実証するために使用されます。

要約(オリジナル)

Cosine similarity between two documents can be computed using token embeddings formed by Large Language Models (LLMs) such as GPT-4, and used to categorize those documents across a range of uses. However, these similarities are ultimately dependent on the corpora used to train these LLMs, and may not reflect subjective similarity of individuals or how their biases and constraints impact similarity metrics. This lack of cognitively-aware personalization of similarity metrics can be particularly problematic in educational and recommendation settings where there is a limited number of individual judgements of category or preference, and biases can be particularly relevant. To address this, we rely on an integration of an Instance-Based Learning (IBL) cognitive model with LLM embeddings to develop the Instance-Based Individualized Similarity (IBIS) metric. This similarity metric is beneficial in that it takes into account individual biases and constraints in a manner that is grounded in the cognitive mechanisms of decision making. To evaluate the IBIS metric, we also introduce a dataset of human categorizations of emails as being either dangerous (phishing) or safe (ham). This dataset is used to demonstrate the benefits of leveraging a cognitive model to measure the subjective similarity of human participants in an educational setting.

arxiv情報

著者 Tyler Malloy,Maria José Ferreira,Fei Fang,Cleotilde Gonzalez
発行日 2024-10-10 14:51:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning

要約

表推論タスクは、自然言語 (NL) の質問に基づいて表形式のデータを解釈し、結論を導き出す大規模言語モデル (LLM) の開発によって目覚ましい進歩を示しています。
主に小規模なテーブルでテストされている既存のソリューションは、スケーラビリティの問題に直面しており、異なるテーブル セクションにデータが不完全または分散しているため、複雑なクエリに苦労しています。
これらの課題を軽減するために、テーブルベースのタスクで LLM を効果的に活用するための多用途プリプロセッサ スイートとして TAP4LLM を提案します。
これは、いくつかの異なるコンポーネントをカバーしています: (1) クエリ セマンティクスに基づいて大きなテーブルを管理可能なサブテーブルに分解するテーブル サンプリング、(2) 外部ソースまたはモデルからの追加知識を使用してテーブルを強化するテーブル拡張、(3) テーブル パッキングとシリアル化
テーブルを LLM の理解に適したさまざまな形式に変換します。
各モジュールでは、表推論タスクに LLM を活用するためのベスト プラクティスを明らかにすることを目的として、さまざまな使用シナリオの下でいくつかの一般的な方法を設計および比較します。
私たちの実験は、私たちの方法がさまざまな表形式タスクにおけるLLMの推論能力を向上させ、効果的な前処理を採用することでLLMと表形式データの間の相互作用を強化することを示しています。

要約(オリジナル)

Table reasoning tasks have shown remarkable progress with the development of large language models (LLMs), which involve interpreting and drawing conclusions from tabular data based on natural language (NL) questions. Existing solutions mainly tested on smaller tables face scalability issues and struggle with complex queries due to incomplete or dispersed data across different table sections. To alleviate these challenges, we propose TAP4LLM as a versatile pre-processor suite for leveraging LLMs in table-based tasks effectively. It covers several distinct components: (1) table sampling to decompose large tables into manageable sub-tables based on query semantics, (2) table augmentation to enhance tables with additional knowledge from external sources or models, and (3) table packing & serialization to convert tables into various formats suitable for LLMs’ understanding. In each module, we design and compare several common methods under various usage scenarios, aiming to shed light on the best practices for leveraging LLMs for table-reasoning tasks. Our experiments show that our method improves LLMs’ reasoning capabilities in various tabular tasks and enhances the interaction between LLMs and tabular data by employing effective pre-processing.

arxiv情報

著者 Yuan Sui,Jiaru Zou,Mengyu Zhou,Xinyi He,Lun Du,Shi Han,Dongmei Zhang
発行日 2024-10-10 15:06:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

LLM Cascade with Multi-Objective Optimal Consideration

要約

大規模言語モデル (LLM) は、自然言語の理解と生成において優れた機能を実証しています。
ただし、導入コストが高いため、特に実用化には障壁となることがよくあります。
カスケード ローカル モデルとサーバー モデルは、この課題に対する有望なソリューションを提供します。
LLM カスケードに関する既存の研究は主にパフォーマンスとコストのトレードオフに焦点を当ててきましたが、実際のシナリオではより複雑な要件が含まれることがよくあります。
このペーパーでは、多目的最適化を備えた新しい LLM カスケード戦略を紹介します。これにより、LLM カスケードは、元のカスケード機能を維持しながら、追加の目的 (プライバシーなど) を考慮し、現実世界のアプリケーションの特定の要求によりよく適合できるようになります。
3 つのベンチマークに関する広範な実験により、私たちのアプローチの有効性と優位性が検証されています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated exceptional capabilities in understanding and generating natural language. However, their high deployment costs often pose a barrier to practical applications, especially. Cascading local and server models offers a promising solution to this challenge. While existing studies on LLM cascades have primarily focused on the performance-cost trade-off, real-world scenarios often involve more complex requirements. This paper introduces a novel LLM Cascade strategy with Multi-Objective Optimization, enabling LLM cascades to consider additional objectives (e.g., privacy) and better align with the specific demands of real-world applications while maintaining their original cascading abilities. Extensive experiments on three benchmarks validate the effectiveness and superiority of our approach.

arxiv情報

著者 Kai Zhang,Liqian Peng,Congchao Wang,Alec Go,Xiaozhong Liu
発行日 2024-10-10 15:09:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする