ACECODER: Acing Coder RL via Automated Test-Case Synthesis

要約

最近のコーダーモデルのほとんどの進歩は、監視された微調整(SFT)によって推進されていますが、主にコードドメインに信頼できる報酬データ/モデルがないため、強化学習の可能性(RL)はほとんど未調査のままです。
この論文では、自動化された大規模なテストケース合成を活用してコードモデルトレーニングを強化することにより、この課題に対処します。
具体的には、既存のコードデータから広範な(質問、テストケース)ペアを生成するパイプラインを設計します。
これらのテストケースを使用して、サンプリングされたプログラムの合格率に基づいて優先ペアを構築し、ブラッドリーテリーの損失で報酬モデルを訓練します。
Llama-3.1-8b-insの平均10ポイント改善と、32のベストサンプリングを通じてQWEN2.5-Coder-7B-Insの5ポイント改善が示され、7Bモデルは236B DeepSeek-と同等になります。
v2.5。
さらに、報酬モデルとテストケースパスの報酬の両方で強化学習を実施し、Humanval、MBPP、BigCodebench、およびLiveCodebench(V4)全体で一貫した改善につながります。
特に、R1スタイルのトレーニングに従って、QWEN2.5-CODER-BASEから直接開始し、RLトレーニングがHumanEval-Plusのモデルを25 \%以上、MBPP-Plusを6 \%以上改善できることを示しています。
ステップ。
私たちの結果は、コーダーモデルの強化学習の大きな可能性を強調していると考えています。

要約(オリジナル)

Most progress in recent coder models has been driven by supervised fine-tuning (SFT), while the potential of reinforcement learning (RL) remains largely unexplored, primarily due to the lack of reliable reward data/model in the code domain. In this paper, we address this challenge by leveraging automated large-scale test-case synthesis to enhance code model training. Specifically, we design a pipeline that generates extensive (question, test-cases) pairs from existing code data. Using these test cases, we construct preference pairs based on pass rates over sampled programs to train reward models with Bradley-Terry loss. It shows an average of 10-point improvement for Llama-3.1-8B-Ins and 5-point improvement for Qwen2.5-Coder-7B-Ins through best-of-32 sampling, making the 7B model on par with 236B DeepSeek-V2.5. Furthermore, we conduct reinforcement learning with both reward models and test-case pass rewards, leading to consistent improvements across HumanEval, MBPP, BigCodeBench, and LiveCodeBench (V4). Notably, we follow the R1-style training to start from Qwen2.5-Coder-base directly and show that our RL training can improve model on HumanEval-plus by over 25\% and MBPP-plus by 6\% for merely 80 optimization steps. We believe our results highlight the huge potential of reinforcement learning in coder models.

arxiv情報

著者 Huaye Zeng,Dongfu Jiang,Haozhe Wang,Ping Nie,Xiaotong Chen,Wenhu Chen
発行日 2025-02-06 18:25:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | ACECODER: Acing Coder RL via Automated Test-Case Synthesis はコメントを受け付けていません

Every Call is Precious: Global Optimization of Black-Box Functions with Unknown Lipschitz Constants

要約

高価で非凸のブラックボックスリプシッツ連続関数を最適化することは、特に基礎となる関数のリプシッツ定数が不明な場合、重要な課題を提示します。
このような問題は、多くの場合、時間、エネルギー、またはリソースの点で法外になる可能性のあるグローバルな最適に近似するために多数の機能評価を必要とします。
この作業では、潜在的に最適な領域に戦略的に焦点を当てることにより、妥協のない評価を最小限に抑える新しいグローバルな最適化アルゴリズムであるすべてのコールIs Precious(ECP)を紹介します。
以前のアプローチとは異なり、ECPはリプシッツ定数を推定する必要性を排除し、それにより追加の関数評価を回避します。
ECPは、無限の評価予算のためにリグレットなしのパフォーマンスを保証し、有限予算内で最適な最適な後悔の範囲を達成します。
広範囲のアブレーション研究がアルゴリズムの堅牢性を検証し、経験的評価は、ECPがLipschitz、Bayesian、Bandits、および30の多次元非凸合成および実世界の最適化の問題にわたる10ベンチマークアルゴリズムを上回ることを示しています。
グローバルな最適化のためのアプローチ。

要約(オリジナル)

Optimizing expensive, non-convex, black-box Lipschitz continuous functions presents significant challenges, particularly when the Lipschitz constant of the underlying function is unknown. Such problems often demand numerous function evaluations to approximate the global optimum, which can be prohibitive in terms of time, energy, or resources. In this work, we introduce Every Call is Precious (ECP), a novel global optimization algorithm that minimizes unpromising evaluations by strategically focusing on potentially optimal regions. Unlike previous approaches, ECP eliminates the need to estimate the Lipschitz constant, thereby avoiding additional function evaluations. ECP guarantees no-regret performance for infinite evaluation budgets and achieves minimax-optimal regret bounds within finite budgets. Extensive ablation studies validate the algorithm’s robustness, while empirical evaluations show that ECP outperforms 10 benchmark algorithms including Lipschitz, Bayesian, bandits, and evolutionary methods across 30 multi-dimensional non-convex synthetic and real-world optimization problems, which positions ECP as a competitive approach for global optimization.

arxiv情報

著者 Fares Fourati,Salma Kharrat,Vaneet Aggarwal,Mohamed-Slim Alouini
発行日 2025-02-06 18:34:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY, math.OC, stat.ML | Every Call is Precious: Global Optimization of Black-Box Functions with Unknown Lipschitz Constants はコメントを受け付けていません

Biogeochemistry-Informed Neural Network (BINN) for Improving Accuracy of Model Prediction and Scientific Understanding of Soil Organic Carbon

要約

ビッグデータと人工知能(AI)の急速な発展は、世界的な炭素循環やその他の生物地球化学プロセスの理解を高めるための前例のない機会を提供します。
ただし、ビッグデータから機械的知識を取得することは依然として課題です。
ここでは、ベクトル化されたプロセスベースの土壌炭素循環モデル(すなわち、コミュニティランドモデルバージョン5、CLM5)をシームレスに統合する生物地球化学情報に基づいたニューラルネットワーク(BINN)を開発して、神経ネットワーク(NN)構造になり、土壌を支配するメカニズムを調べるメカニズムを調べます。
ビッグデータからのカーボン(SOC)ストレージ。
BINNは、パラメーター回復実験で合成データから生物地球化学的パラメーター値を取得する際の高い精度を示しています。
BINNを使用して、Conterminous US全体の25,925のSOCプロファイルから土壌炭素循環(またはプロセスベースのモデルのコンポーネント)を調節する6つの主要なプロセスを予測し、それらをベイジアン推論ベースのプロセス誘導ディープによって以前に取得した同じプロセスと比較しました。
学習およびデータ駆動型モデリング(PRODA)アプローチ(Tao etal。2020; 2023)。
0.81の平均相関係数を持つ2つのアプローチを使用して、取得プロセスの空間パターン間の高い一致は、ビッグデータから機械的知識を取得するBINNの能力を確認します。
さらに、BINNにおけるニューラルネットワークとプロセスベースのモデルの統合により、計算効率はプロダを50倍以上改善します。
Binnは、AIとプロセスベースのモデリングの両方の力を活用する変換ツールであり、地球システムモデルの解釈可能性と精度を改善しながら、新しい科学的発見を促進します。

要約(オリジナル)

Big data and the rapid development of artificial intelligence (AI) provide unprecedented opportunities to enhance our understanding of the global carbon cycle and other biogeochemical processes. However, retrieving mechanistic knowledge from big data remains a challenge. Here, we develop a Biogeochemistry-Informed Neural Network (BINN) that seamlessly integrates a vectorized process-based soil carbon cycle model (i.e., Community Land Model version 5, CLM5) into a neural network (NN) structure to examine mechanisms governing soil organic carbon (SOC) storage from big data. BINN demonstrates high accuracy in retrieving biogeochemical parameter values from synthetic data in a parameter recovery experiment. We use BINN to predict six major processes regulating the soil carbon cycle (or components in process-based models) from 25,925 observed SOC profiles across the conterminous US and compared them with the same processes previously retrieved by a Bayesian inference-based PROcess-guided deep learning and DAta-driven modeling (PRODA) approach (Tao et al. 2020; 2023). The high agreement between the spatial patterns of the retrieved processes using the two approaches with an average correlation coefficient of 0.81 confirms BINN’s ability in retrieving mechanistic knowledge from big data. Additionally, the integration of neural networks and process-based models in BINN improves computational efficiency by more than 50 times over PRODA. We conclude that BINN is a transformative tool that harnesses the power of both AI and process-based modeling, facilitating new scientific discoveries while improving interpretability and accuracy of Earth system models.

arxiv情報

著者 Haodi Xu,Joshua Fan,Feng Tao,Lifen Jiang,Fengqi You,Benjamin Z. Houlton,Ying Sun,Carla P. Gomes,Yiqi Luo
発行日 2025-02-06 18:41:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, physics.geo-ph | Biogeochemistry-Informed Neural Network (BINN) for Improving Accuracy of Model Prediction and Scientific Understanding of Soil Organic Carbon はコメントを受け付けていません

Estimating the Probabilities of Rare Outputs in Language Models

要約

低確率推定の問題を検討します。機械学習モデルと正式に指定された入力分布を考慮して、ランダムサンプリングによって推定できない場合でも、モデルの出力のバイナリプロパティの確率を推定するにはどうすればよいですか?
この問題は、最悪のケースのパフォーマンスを改善する必要性によって動機付けられています。これは、どの分布シフトがより可能性が高くなる可能性があります。
小型トランス言語モデルからのArgmaxサンプリングのコンテキストで、低確率推定を研究します。
2つのタイプの方法を比較します。重要性サンプリング。これには、まれな出力を生じさせる入力を検索することと、モデルのロジットに適合する確率分布を外挿する活性化の外挿が比較されます。
サンプルが活性化の外挿を上回ると、どちらも素朴なサンプリングを上回ることがわかります。
最後に、望ましくない行動の確率推定値を最小化する方法を説明し、最悪のパフォーマンスについてより強力な保証を提供するために、低確率推定の新しい方法が必要であると主張します。

要約(オリジナル)

We consider the problem of low probability estimation: given a machine learning model and a formally-specified input distribution, how can we estimate the probability of a binary property of the model’s output, even when that probability is too small to estimate by random sampling? This problem is motivated by the need to improve worst-case performance, which distribution shift can make much more likely. We study low probability estimation in the context of argmax sampling from small transformer language models. We compare two types of methods: importance sampling, which involves searching for inputs giving rise to the rare output, and activation extrapolation, which involves extrapolating a probability distribution fit to the model’s logits. We find that importance sampling outperforms activation extrapolation, but both outperform naive sampling. Finally, we explain how minimizing the probability estimate of an undesirable behavior generalizes adversarial training, and argue that new methods for low probability estimation are needed to provide stronger guarantees about worst-case performance.

arxiv情報

著者 Gabriel Wu,Jacob Hilton
発行日 2025-02-06 18:43:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Estimating the Probabilities of Rare Outputs in Language Models はコメントを受け付けていません

Strong Equivalence in Answer Set Programming with Constraints

要約

制約を備えた回答セットプログラミングの拡張フレームワーク内の強力な同等性の概念を調査します。
2つのグループのルールは、非公式に言えば、どんなコンテキストでも同じ意味を持っている場合、強く同等であると見なされます。
特定の仮定の下で、この拡張設定のルールセット間の強い等価性は、制約との論理におけるそれらの同等性によって正確に特徴付けられることを実証します。
さらに、制約を備えた言語への制約を処理するいくつかのクリンゴベースの回答セットソルバーの言語からの翻訳を提示します。
この翻訳により、これらのソルバーのコンテキスト内での強い等価性について、こことここの論理を活用することができます。
また、このコンテキストで強力な等価性を決定するという計算の複雑さを探ります。

要約(オリジナル)

We investigate the concept of strong equivalence within the extended framework of Answer Set Programming with constraints. Two groups of rules are considered strongly equivalent if, informally speaking, they have the same meaning in any context. We demonstrate that, under certain assumptions, strong equivalence between rule sets in this extended setting can be precisely characterized by their equivalence in the logic of Here-and-There with constraints. Furthermore, we present a translation from the language of several clingo-based answer set solvers that handle constraints into the language of Here-and-There with constraints. This translation enables us to leverage the logic of Here-and-There to reason about strong equivalence within the context of these solvers. We also explore the computational complexity of determining strong equivalence in this context.

arxiv情報

著者 Pedro Cabalar,Jorge Fandinno,Torsten Schaub,Philipp Wanko
発行日 2025-02-06 18:43:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LO, I.2.4 | Strong Equivalence in Answer Set Programming with Constraints はコメントを受け付けていません

DexterityGen: Foundation Controller for Unprecedented Dexterity

要約

ロボットを教えるツールの使用などの器用な操作スキルは、重要な課題を提示します。
現在のアプローチは、人間の遠隔操作(模倣学習のため)とSIM-to-Real強化学習の2つの戦略に広く分類できます。
最初のアプローチは、人間がタッチフィードバックなしで異なる具体化に安全で器用な動きを生成することが難しいため、困難です。
2番目のRLベースのアプローチは、ドメインギャップと闘い、複雑なタスクで非常にタスク固有の報酬エンジニアリングを伴います。
私たちの重要な洞察は、RLが低レベルのモーションプリミティブを学習するのに効果的であり、人間は複雑で長老のタスクに粗いモーションコマンドを提供することに優れていることです。
したがって、最適なソリューションは、両方のアプローチの組み合わせである可能性があります。
このホワイトペーパーでは、RLを使用して、手の回転や翻訳などの大規模な器用なモーションプリミティブを取得するDexterityGen(Dexgen)を紹介します。
次に、この学んだデータセットを活用して、器用な基礎コントローラーをトレーニングします。
現実の世界では、人間のテレオ操作をコントローラーへのプロンプトとして使用して、非常に器用な動作を生成します。
シミュレーションと現実世界の両方におけるdexgenの有効性を評価し、入力の器用な操作コマンドを実現し、多様なタスク全体のオブジェクトを保持する期間として10〜100倍安定性を大幅に改善できる汎用コントローラーであることを示しています。
特に、Dexgenを使用すると、ペン、注射器、ドライバーなどの多様なオブジェクトの再配向性や器用なツールの使用など、前例のない器用なスキルを初めて示します。

要約(オリジナル)

Teaching robots dexterous manipulation skills, such as tool use, presents a significant challenge. Current approaches can be broadly categorized into two strategies: human teleoperation (for imitation learning) and sim-to-real reinforcement learning. The first approach is difficult as it is hard for humans to produce safe and dexterous motions on a different embodiment without touch feedback. The second RL-based approach struggles with the domain gap and involves highly task-specific reward engineering on complex tasks. Our key insight is that RL is effective at learning low-level motion primitives, while humans excel at providing coarse motion commands for complex, long-horizon tasks. Therefore, the optimal solution might be a combination of both approaches. In this paper, we introduce DexterityGen (DexGen), which uses RL to pretrain large-scale dexterous motion primitives, such as in-hand rotation or translation. We then leverage this learned dataset to train a dexterous foundational controller. In the real world, we use human teleoperation as a prompt to the controller to produce highly dexterous behavior. We evaluate the effectiveness of DexGen in both simulation and real world, demonstrating that it is a general-purpose controller that can realize input dexterous manipulation commands and significantly improves stability by 10-100x measured as duration of holding objects across diverse tasks. Notably, with DexGen we demonstrate unprecedented dexterous skills including diverse object reorientation and dexterous tool use such as pen, syringe, and screwdriver for the first time.

arxiv情報

著者 Zhao-Heng Yin,Changhao Wang,Luis Pineda,Francois Hogan,Krishna Bodduluri,Akash Sharma,Patrick Lancaster,Ishita Prasad,Mrinal Kalakrishnan,Jitendra Malik,Mike Lambeta,Tingfan Wu,Pieter Abbeel,Mustafa Mukadam
発行日 2025-02-06 18:49:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY | DexterityGen: Foundation Controller for Unprecedented Dexterity はコメントを受け付けていません

HOG-Diff: Higher-Order Guided Diffusion for Graph Generation

要約

グラフの生成は、経験的な分析には複雑で非系統的な構造を深く理解する必要があるため、重要でありながら挑戦的なタスクです。
拡散モデルは最近、グラフ生成に大きな成果を上げていますが、これらのモデルは通常、画像生成のために設計されたフレームワークから適応し、グラフのトポロジ特性をキャプチャするのに適していません。
この作業では、粗から金融の生成カリキュラムに従い、高次の情報に導かれた新しい高次誘導拡散(Hog-diff)モデルを提案し、固有のトポロジ構造を持つもっともらしいグラフの進行性の生成を可能にします。
さらに、モデルが古典的な拡散フレームワークよりも強力な理論的保証を示すことを証明します。
分子グラフ生成タスクと一般的なグラフ生成タスクの両方での広範な実験は、私たちの方法が一貫して最先端のベースラインと一貫して競争力を維持するか、競争し続けることを示しています。
私たちのコードは、https://github.com/yimingh/hog-diffで入手できます。

要約(オリジナル)

Graph generation is a critical yet challenging task as empirical analyses require a deep understanding of complex, non-Euclidean structures. Although diffusion models have recently made significant achievements in graph generation, these models typically adapt from the frameworks designed for image generation, making them ill-suited for capturing the topological properties of graphs. In this work, we propose a novel Higher-order Guided Diffusion (HOG-Diff) model that follows a coarse-to-fine generation curriculum and is guided by higher-order information, enabling the progressive generation of plausible graphs with inherent topological structures. We further prove that our model exhibits a stronger theoretical guarantee than classical diffusion frameworks. Extensive experiments on both molecular and generic graph generation tasks demonstrate that our method consistently outperforms or remains competitive with state-of-the-art baselines. Our code is available at https://github.com/Yiminghh/HOG-Diff.

arxiv情報

著者 Yiming Huang,Tolga Birdal
発行日 2025-02-06 18:51:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SI, physics.soc-ph | HOG-Diff: Higher-Order Guided Diffusion for Graph Generation はコメントを受け付けていません

From Probability to Counterfactuals: the Increasing Complexity of Satisfiability in Pearl’s Causal Hierarchy

要約

パールの因果階層(PCH)の枠組みは、因果関係に関する人間の思考の進行性の洗練を反映した、確率(すなわち純粋に観察)、介入的、および反事実の3種類の推論を形成します。
主にPCH全体の確率的および因果言語で表される満足度の問題に焦点を当てたこのフレームワークで、推論の計算の複雑さの側面を調査します。
つまり、標準的な確率的および因果言語に式のシステムが与えられているため、式を満たすモデルが存在しますか?
私たちの主な貢献は、(合計演算子を介して)追加と疎外を可能にする言語が、PCHのレベルに応じて、NP^PP、PSPACE、およびNEXP不完全な満足度の問題を生成することを示す正確な計算の複雑さを証明することです。
これらは、PCH全体で厳密に増加している複雑さを示す最初の結果です。確率から因果関係および反事実的推論までです。
一方、完全な言語の場合、つまり、追加、疎外、および乗算を可能にする場合、反事実レベルの満足度は確率的および因果レベルの場合と同じであり、現場で開かれた問題を解決することを示します。

要約(オリジナル)

The framework of Pearl’s Causal Hierarchy (PCH) formalizes three types of reasoning: probabilistic (i.e. purely observational), interventional, and counterfactual, that reflect the progressive sophistication of human thought regarding causation. We investigate the computational complexity aspects of reasoning in this framework focusing mainly on satisfiability problems expressed in probabilistic and causal languages across the PCH. That is, given a system of formulas in the standard probabilistic and causal languages, does there exist a model satisfying the formulas? Our main contribution is to prove the exact computational complexities showing that languages allowing addition and marginalization (via the summation operator) yield NP^PP, PSPACE-, and NEXP-complete satisfiability problems, depending on the level of the PCH. These are the first results to demonstrate a strictly increasing complexity across the PCH: from probabilistic to causal and counterfactual reasoning. On the other hand, in the case of full languages, i.e. allowing addition, marginalization, and multiplication, we show that the satisfiability for the counterfactual level remains the same as for the probabilistic and causal levels, solving an open problem in the field.

arxiv情報

著者 Julian Dörfler,Benito van der Zander,Markus Bläser,Maciej Liskiewicz
発行日 2025-02-06 18:53:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC | From Probability to Counterfactuals: the Increasing Complexity of Satisfiability in Pearl’s Causal Hierarchy はコメントを受け付けていません

Great Models Think Alike and this Undermines AI Oversight

要約

言語モデル(LM)機能が進歩するにつれて、それらを大規模に評価および監督することは、人間にとって難しくなっています。
他の言語モデルがこれらの両方のタスクを自動化できることを期待しています。これは「AI監視」と呼ばれます。
モデルの類似性が、モデルのミスの重複に基づいてLM類似性の確率論的メトリックを提案することにより、AI監視の両方の側面にどのように影響するかを研究します。
このメトリックを使用して、最初にLLM-as-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-judgeが裁判官と同様のモデルを支持し、最近の自己再参照の結果を一般化することを示します。
次に、LMアノテーションに関するトレーニングを研究し、弱い監督者と強力な学生モデルの間の補完的な知識を見つけ、「弱い一般化」からの利益に重要な役割を果たします。
モデル機能が増加するにつれて、間違いを見つけるのが難しくなり、AIの監視により多くの延期を繰り返す可能性があります。
ただし、懸念される傾向が観察されます。モデルの間違いは、能力の増加とともにより類似しており、相関障害からのリスクを指し示しています。
私たちの仕事は、特にAI監視の新たなパラダイムにおいて、モデルの類似性を報告し、修正することの重要性を強調しています。

要約(オリジナル)

As Language Model (LM) capabilities advance, evaluating and supervising them at scale is getting harder for humans. There is hope that other language models can automate both these tasks, which we refer to as ‘AI Oversight’. We study how model similarity affects both aspects of AI oversight by proposing a probabilistic metric for LM similarity based on overlap in model mistakes. Using this metric, we first show that LLM-as-a-judge scores favor models similar to the judge, generalizing recent self-preference results. Then, we study training on LM annotations, and find complementary knowledge between the weak supervisor and strong student model plays a crucial role in gains from ‘weak-to-strong generalization’. As model capabilities increase, it becomes harder to find their mistakes, and we might defer more to AI oversight. However, we observe a concerning trend — model mistakes are becoming more similar with increasing capabilities, pointing to risks from correlated failures. Our work underscores the importance of reporting and correcting for model similarity, especially in the emerging paradigm of AI oversight.

arxiv情報

著者 Shashwat Goel,Joschka Struber,Ilze Amanda Auzina,Karuna K Chandra,Ponnurangam Kumaraguru,Douwe Kiela,Ameya Prabhu,Matthias Bethge,Jonas Geiping
発行日 2025-02-06 18:56:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Great Models Think Alike and this Undermines AI Oversight はコメントを受け付けていません

ChamaleonLLM: Batch-Aware Dynamic Low-Rank Adaptation via Inference-Time Clusters

要約

大規模な言語モデル(LLMS)の最近の進歩により、多様なタスク全体で顕著なパフォーマンスが示されています。
ただし、これらのモデルは通常、固定重量で展開されているため、推論中に実際のデータに固有の変動性に動的に適応する能力が制限されます。
このペーパーでは、バッチアウェアクラスタリングとオンザフライ生成の低ランクアップデートを活用することにより、LLMSの推論時間適応を可能にする新しいフレームワークであるChamaleonllmを紹介します。
低ランク適応(LORA)や、前習得前のユニフォーム(変更可能なマスク)の固定セットに依存する方法などの従来の微調整アプローチとは異なり、この方法は、クラスター化された統計統計に基づいてデコーダー重みの適応修正を動的に生成します。
バッチ。
Hyper-Networkを介して同様の入力をインテリジェントにグループ化し、コンテキストを認識している低ランクの更新を計算することにより、Chamaleonllmは大幅なパフォーマンスゲインを達成し、複数の専門家モデルを維持するオーバーヘッドを排除しながら、従来のLORAメソッドを上回ります。
私たちの実験は、言語モデルの推論のための多用途で高度に適応的なソリューションとして機能するアプローチの可能性を強調しています。
ChamaleOnllmは、実験の再現性を確保するためにオープンソースを受けています:https://anonymous.4open.science/r/chamaleonllm/

要約(オリジナル)

Recent advances in large language models (LLMs) have shown remarkable performance across diverse tasks. However, these models are typically deployed with fixed weights, which limits their ability to adapt dynamically to the variability inherent in real-world data during inference. This paper introduces ChamaleonLLM, a novel framework that enables inference-time adaptation of LLMs by leveraging batch-aware clustering and on-the-fly generation of low-rank updates. Unlike traditional fine-tuning approaches such as Low-Rank Adaptation (LoRA) or methods that rely on a fixed set of pre-learned uniforms (changeable masks), our method dynamically generates adaptive modifications to the decoder weights based on the aggregated statistics of clustered batches. By intelligently grouping similar inputs and computing context-aware low-rank updates via a hyper-network, ChamaleonLLM achieves significant performance gains, outperforming conventional LoRA methods while eliminating the overhead of maintaining multiple expert models. Our experiments highlight the potential of our approach to serve as a versatile and highly adaptive solution for language model inference. ChamaleonLLM is open-sourced to ensure the reproducibility of our experiments: https://anonymous.4open.science/r/ChamaleonLLM/

arxiv情報

著者 Kamer Ali Yuksel,Hassan Sawaf
発行日 2025-02-06 18:57:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | ChamaleonLLM: Batch-Aware Dynamic Low-Rank Adaptation via Inference-Time Clusters はコメントを受け付けていません