Isotonic Mechanism for Exponential Family Estimation in Machine Learning Peer Review

要約

2023年、機械学習に関する国際会議(ICML)は、知覚された品質に基づいて提出をランク付けするために複数の提出を行う著者を要求しました。
この論文では、これらの著者指定のランキングを採用して、等張メカニズムを指数関数的な家族分布に拡張することにより、機械学習および人工知能会議のピアレビューを強化することを目指しています。
このメカニズムは、作成者指定のランキングを順守しながら、元のスコアと密接に整合する調整済みスコアを生成します。
幅広い指数関数的な家族分布への適用性にもかかわらず、このメカニズムを実装しても、特定の分布フォームの知識は必要ありません。
私たちは、著者が、彼女のユーティリティが調整されたレビュースコアの凸面添加関数の形をとるときに正確なランキングを提供するようにインセンティブ化されることを実証します。
指数関数的な家族分布の特定のサブクラスについて、著者は、質問が彼女の提出物間のペアワイズ比較のみを伴う場合にのみ正直に報告し、したがって真実の情報の誘発にランキングの最適性を示していることを証明します。
さらに、調整されたスコアは、元のスコアと比較して推定精度を劇的に改善し、グラウンドトゥルーススコアが総変動を縮小した場合にほぼミニマックスの最適性を達成することを示します。
ICML 2023ランキングデータの数値分析で結論を出し、等張メカニズムを使用して論文のプロキシグラウンドトゥルースの品質を近似する際の大幅な推定ゲインを示しています。

要約(オリジナル)

In 2023, the International Conference on Machine Learning (ICML) required authors with multiple submissions to rank their submissions based on perceived quality. In this paper, we aim to employ these author-specified rankings to enhance peer review in machine learning and artificial intelligence conferences by extending the Isotonic Mechanism to exponential family distributions. This mechanism generates adjusted scores that closely align with the original scores while adhering to author-specified rankings. Despite its applicability to a broad spectrum of exponential family distributions, implementing this mechanism does not require knowledge of the specific distribution form. We demonstrate that an author is incentivized to provide accurate rankings when her utility takes the form of a convex additive function of the adjusted review scores. For a certain subclass of exponential family distributions, we prove that the author reports truthfully only if the question involves only pairwise comparisons between her submissions, thus indicating the optimality of ranking in truthful information elicitation. Moreover, we show that the adjusted scores improve dramatically the estimation accuracy compared to the original scores and achieve nearly minimax optimality when the ground-truth scores have bounded total variation. We conclude with a numerical analysis of the ICML 2023 ranking data, showing substantial estimation gains in approximating a proxy ground-truth quality of the papers using the Isotonic Mechanism.

arxiv情報

著者 Yuling Yan,Weijie J. Su,Jianqing Fan
発行日 2025-02-11 15:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, econ.TH, math.ST, stat.ME, stat.TH | Isotonic Mechanism for Exponential Family Estimation in Machine Learning Peer Review はコメントを受け付けていません

Partial-Label Learning with Conformal Candidate Cleaning

要約

実際のデータはしばしばあいまいです。
たとえば、人間の注釈は、複数の矛盾するクラスラベルを持つインスタンスを生成します。
Partial-Label Learning(PLL)は、各インスタンスが候補ラベルのセットと正しいが不明なクラスラベルに関連付けられているこの挑戦的な設定で分類子をトレーニングすることを目的としています。
この設定をターゲットにした多数のアルゴリズムが存在し、予測の品質を高めるために、広範囲のPLLメソッドに適用可能ないくつかの拡張機能が導入されています。
これらの拡張機能の多くはヒューリスティックに依存していますが、この記事では、コンフォーマル予測を使用して候補セットを徐々にプルーネットする新しい強化方法を提案しています。
通常、コンフォーマル予測に必要な欠落したラベル付き検証セットを回避するために、検証セットにラベルを付けるためにPLL分類器をトレーニングすること、キャリブレーションのためにこれらの予測クラスラベルを活用し、一部ではない剪定候補ラベルを活用する戦略を提案します。
結果のコンフォーマルセットの。
この意味で、私たちの方法は、経験的リスクの最小化と候補セット剪定を交互に行います。
私たちの剪定方法は、未知のグラウンド・トゥルースに関してコンフォーマルの妥当性を維持することを確立します。
人工および現実世界のデータに関する広範な実験は、提案されたアプローチがいくつかの最先端のPLL分類器のテストセットの精度を大幅に改善することを示しています。

要約(オリジナル)

Real-world data is often ambiguous; for example, human annotation produces instances with multiple conflicting class labels. Partial-label learning (PLL) aims at training a classifier in this challenging setting, where each instance is associated with a set of candidate labels and one correct, but unknown, class label. A multitude of algorithms targeting this setting exists and, to enhance their prediction quality, several extensions that are applicable across a wide range of PLL methods have been introduced. While many of these extensions rely on heuristics, this article proposes a novel enhancing method that incrementally prunes candidate sets using conformal prediction. To work around the missing labeled validation set, which is typically required for conformal prediction, we propose a strategy that alternates between training a PLL classifier to label the validation set, leveraging these predicted class labels for calibration, and pruning candidate labels that are not part of the resulting conformal sets. In this sense, our method alternates between empirical risk minimization and candidate set pruning. We establish that our pruning method preserves the conformal validity with respect to the unknown ground truth. Our extensive experiments on artificial and real-world data show that the proposed approach significantly improves the test set accuracies of several state-of-the-art PLL classifiers.

arxiv情報

著者 Tobias Fuchs,Florian Kalinke
発行日 2025-02-11 15:51:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Partial-Label Learning with Conformal Candidate Cleaning はコメントを受け付けていません

Learning to Optimize for Mixed-Integer Non-linear Programming

要約

混合整数非線形プログラム(MINLP)は、エネルギーシステムや輸送などの多様なドメインで発生しますが、特に大規模には解決が難しいことで有名です。
最適化の学習は継続的な最適化で成功していますが、整数の制約により、MINLPSに拡張することは依然として困難です。
これを克服するために、ソリューションの統合性とソリューションの実現可能性を向上させるための後処理ステップを確保するために、2つの学習可能な補正層を使用した新しい深部学習アプローチを提案します。
私たちの実験は、これがミリ秒単位で最大数万の変数を持つ大規模なMINLPを効率的に解くことができる最初の一般的な方法であり、従来のソルバーやヒューリスティックが失敗した場合でも高品質のソリューションを提供できることを示しています。
これはMINLPの最初の一般学習方法であり、これまでに報告された最大のインスタンスのいくつかを正常に解決します。

要約(オリジナル)

Mixed-integer nonlinear programs (MINLPs) arise in diverse domains such as energy systems and transportation but are notoriously difficult to solve, particularly on a large scale. While learning-to-optimize methods have been successful at continuous optimization, extending them to MINLPs is still challenging due to the integer constraints. To overcome this, we propose a novel deep-learning approach with two learnable correction layers to ensure solution integrality and a post-processing step to improve solution feasibility. Our experiments show that this is the first general method capable of efficiently solving large-scale MINLPs with up to tens of thousands of variables in milliseconds, delivering high-quality solutions even when traditional solvers and heuristics fail. This is the first general learning method for MINLP, successfully solving some of the largest instances reported to date.

arxiv情報

著者 Bo Tang,Elias B. Khalil,Ján Drgoňa
発行日 2025-02-11 15:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | Learning to Optimize for Mixed-Integer Non-linear Programming はコメントを受け付けていません

Near-Optimal Sample Complexity in Reward-Free Kernel-Based Reinforcement Learning

要約

強化学習(RL)の問題は、ますます複雑な構造の下で考慮されています。
表形式および線形モデルが徹底的に調査されていますが、非線形関数近似、特にカーネルベースのモデルでのRLの分析研究は、最近、その強力な表現能力と理論的扱い性のために牽引力を獲得しました。
これに関連して、報酬のないRLフレームワーク内のカーネルベースのRLにおける統計効率の問題を検討します。具体的には次のように尋ねます。
既存の作業は、カーネル関数のクラスに関する制限的な仮定の下でこの質問に対処します。
最初に、生成モデルを仮定してこの質問を探り、次にこの仮定をリラックスして、エピソードの長さであるhの係数でサンプルの複雑さを高めるために緩和します。
幅広いクラスのカーネルと以前の作業と比較してよりシンプルなアルゴリズムを使用して、この基本的な問題に取り組みます。
私たちのアプローチは、RL設定に固有のカーネルリッジ回帰の新しい信頼区間を導き出します。
さらに、シミュレーションを通じて理論的な調査結果を検証します。

要約(オリジナル)

Reinforcement Learning (RL) problems are being considered under increasingly more complex structures. While tabular and linear models have been thoroughly explored, the analytical study of RL under nonlinear function approximation, especially kernel-based models, has recently gained traction for their strong representational capacity and theoretical tractability. In this context, we examine the question of statistical efficiency in kernel-based RL within the reward-free RL framework, specifically asking: how many samples are required to design a near-optimal policy? Existing work addresses this question under restrictive assumptions about the class of kernel functions. We first explore this question by assuming a generative model, then relax this assumption at the cost of increasing the sample complexity by a factor of H, the length of the episode. We tackle this fundamental problem using a broad class of kernels and a simpler algorithm compared to prior work. Our approach derives new confidence intervals for kernel ridge regression, specific to our RL setting, which may be of broader applicability. We further validate our theoretical findings through simulations.

arxiv情報

著者 Aya Kayal,Sattar Vakili,Laura Toni,Alberto Bernacchia
発行日 2025-02-11 17:15:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Near-Optimal Sample Complexity in Reward-Free Kernel-Based Reinforcement Learning はコメントを受け付けていません

Drago: Primal-Dual Coupled Variance Reduction for Faster Distributionally Robust Optimization

要約

閉じられた凸の不確実性セットで、ペナルティ化された分配的に堅牢な最適化(DRO)の問題を検討します。これは、$ f $ -droとspectral/$ l $ -RISKの最小化を使用した学習を含む設定です。
環状およ​​びランダム化された成分と慎重に正則化されたプライマルアップデートを組み合わせて、二重分散削減を達成する確率的原始アルゴリズムであるDragoを提示します。
その設計により、Dragoは、原始および二重条件数に細粒の依存性を備えた、強く凸型の凹面DROの問題に対して最先端の線形収束速度を享受しています。
理論的な結果は、回帰および分類タスクに関する数値ベンチマークによってサポートされています。

要約(オリジナル)

We consider the penalized distributionally robust optimization (DRO) problem with a closed, convex uncertainty set, a setting that encompasses learning using $f$-DRO and spectral/$L$-risk minimization. We present Drago, a stochastic primal-dual algorithm that combines cyclic and randomized components with a carefully regularized primal update to achieve dual variance reduction. Owing to its design, Drago enjoys a state-of-the-art linear convergence rate on strongly convex-strongly concave DRO problems with a fine-grained dependency on primal and dual condition numbers. Theoretical results are supported by numerical benchmarks on regression and classification tasks.

arxiv情報

著者 Ronak Mehta,Jelena Diakonikolas,Zaid Harchaoui
発行日 2025-02-11 17:28:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML | Drago: Primal-Dual Coupled Variance Reduction for Faster Distributionally Robust Optimization はコメントを受け付けていません

Natural Variational Annealing for Multimodal Optimization

要約

3つの基本的な概念の強度を組み合わせて、ブラックボックスの非コンセン型目標の複数のグローバルモードとローカルモードを同時に検索する自然変動アニーリング(NVA)と呼ばれる新しいマルチモーダル最適化アプローチを導入します。
まず、ガウスの混合物などの変動後の事後を使用して、同時検索を実装します。
第二に、アニーリングを適用して、搾取のために探査を徐々に交換します。
最後に、アップデートがよく知られていて実装しやすいアルゴリズムに似ている自然勾配学習を使用して、変動検索分布を学習します。
3つの概念は、新しいアルゴリズムを引き起こし、進化的アルゴリズムのコアコンセプトである「フィットネスシェーピング」を組み込むことができるようになり、NVAで一緒になります。
シミュレーションの検索の品質を評価し、勾配降下と進化戦略を使用した方法と比較します。
また、惑星科学における現実世界の逆問題への応用も提供します。

要約(オリジナル)

We introduce a new multimodal optimization approach called Natural Variational Annealing (NVA) that combines the strengths of three foundational concepts to simultaneously search for multiple global and local modes of black-box nonconvex objectives. First, it implements a simultaneous search by using variational posteriors, such as, mixtures of Gaussians. Second, it applies annealing to gradually trade off exploration for exploitation. Finally, it learns the variational search distribution using natural-gradient learning where updates resemble well-known and easy-to-implement algorithms. The three concepts come together in NVA giving rise to new algorithms and also allowing us to incorporate ‘fitness shaping’, a core concept from evolutionary algorithms. We assess the quality of search on simulations and compare them to methods using gradient descent and evolution strategies. We also provide an application to a real-world inverse problem in planetary science.

arxiv情報

著者 Tâm Le Minh,Julyan Arbel,Thomas Möllenhoff,Mohammad Emtiyaz Khan,Florence Forbes
発行日 2025-02-11 17:36:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO, stat.ML | Natural Variational Annealing for Multimodal Optimization はコメントを受け付けていません

Glinthawk: A Two-Tiered Architecture for Offline LLM Inference

要約

オフラインの大手言語モデル(LLM)推論のアーキテクチャであるGlinThawkを紹介します。
2層構造を活用することにより、Glinthawkは、ローエンドの計算層( ‘Tier 2’)に注意メカニズムをオフロードすることにより、ハイエンドアクセラレータ(「ティア1」)の利用を最適化します。
この分離により、キー価値キャッシュとして知られる注意のメモリ需要は、モデルの重みから独立してスケーリングし、より大きなバッチサイズとより効率的なアクセラレータの使用を可能にします。
NVIDIA T4 GPUおよび標準のCPU VMSでプロトタイプ化されたGlinThawkは、ページングの注意ベースラインと比較して、スループットが5.9 \ Times $を$ 5.9 \ Times $で改善し、2.8 \ Times $を削減します。
シーケンスの長さの長さの場合、$ 16.3 \ Times $のスループットの改善が2.4 \ Times $コストの低いと達成されます。
私たちの評価は、このアーキテクチャがパフォーマンスの低下を最小限に抑えて中程度のネットワーク遅延に耐えることができ、バッチ処理などのレイテンシ耐性のスループット中心のアプリケーションに非常に効果的であることを示しています。
このプロトタイプは、https://github.com/microsoft/glinthawkで公開されています。

要約(オリジナル)

We introduce Glinthawk, an architecture for offline Large Language Model (LLM) inference. By leveraging a two-tiered structure, Glinthawk optimizes the utilization of the high-end accelerators (‘Tier 1’) by offloading the attention mechanism to lower-end compute tier (‘Tier 2’). This separation allows the memory demand of the attention, known as the key-value cache, to scale independently from the model weights, enabling larger batch sizes and more efficient accelerator usage. Prototyped with NVIDIA T4 GPUs and standard CPU VMs, Glinthawk improves throughput by $5.9\times$ and reduces cost of generation by $2.8\times$, compared to paged attention baselines. For long sequence lengths, it achieves $16.3\times$ throughput improvement at $2.4\times$ less cost. Our evaluation shows that this architecture can tolerate moderate network latency with minimal performance degradation, making it highly effective for latency-tolerant, throughput-focused applications such as batch processing. The prototype is publicly available at https://github.com/microsoft/glinthawk.

arxiv情報

著者 Pouya Hamadanian,Sadjad Fouladi
発行日 2025-02-11 17:36:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, cs.PF | Glinthawk: A Two-Tiered Architecture for Offline LLM Inference はコメントを受け付けていません

The Benefits of Balance: From Information Projections to Variance Reduction

要約

複数のモダリティとソースにわたるデータバランスは、機械学習とAIの基礎モデルにさまざまな形で表示されます。
クリップとディノ。
モダリティとソース全体でデータバランスをとるデータは、実際に疑わしい利点である分散削減を提供することを示しています。
この分散還元効果を定量化し、それをマルコフ演算子の固有値減衰に関連付ける非症状の統計的結合を提示します。
さらに、分散削減の視点により、対照的なマルチモーダル学習と自己監視クラスタリングでさまざまな形態のデータバランスをとることがよりよく理解され、さらには改善さえできることを説明します。

要約(オリジナル)

Data balancing across multiple modalities and sources appears in various forms in foundation models in machine learning and AI, e.g. in CLIP and DINO. We show that data balancing across modalities and sources actually offers an unsuspected benefit: variance reduction. We present a non-asymptotic statistical bound that quantifies this variance reduction effect and relates it to the eigenvalue decay of Markov operators. Furthermore, we describe how various forms of data balancing in contrastive multimodal learning and self-supervised clustering can be better understood, and even improved upon, owing to our variance reduction viewpoint.

arxiv情報

著者 Lang Liu,Ronak Mehta,Soumik Pal,Zaid Harchaoui
発行日 2025-02-11 17:47:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH | The Benefits of Balance: From Information Projections to Variance Reduction はコメントを受け付けていません

Revisiting Non-Acyclic GFlowNets in Discrete Environments

要約

生成フローネットワーク(Gflownets)は、特定の確率分布からオブジェクトをサンプリングすることを学ぶ生成モデルのファミリーであり、潜在的に正規化定数まで知られています。
オブジェクトスペースで作業する代わりに、Gflownetsは、グラフの環状性に大きく依存して、適切に構築された指示された非環式グラフ環境で軌跡をサンプリングすることで進みます。
私たちの論文では、非環式の仮定を緩和し、離散環境で非活性的なGflownetsのより単純な理論的枠組みを提示する理論を再訪します。
さらに、固定された後方ポリシー、流れ機能の性質、およびエントロピー正規化RLと非活性gflownetsの間のつながりを伴うトレーニングに関連するさまざまな新しい理論的洞察を提供します。
さらに、非活性Gflownetトレーニングにおける損失の安定性の概念を実験的に再検討し、独自の理論的調査結果を検証します。

要約(オリジナル)

Generative Flow Networks (GFlowNets) are a family of generative models that learn to sample objects from a given probability distribution, potentially known up to a normalizing constant. Instead of working in the object space, GFlowNets proceed by sampling trajectories in an appropriately constructed directed acyclic graph environment, greatly relying on the acyclicity of the graph. In our paper, we revisit the theory that relaxes the acyclicity assumption and present a simpler theoretical framework for non-acyclic GFlowNets in discrete environments. Moreover, we provide various novel theoretical insights related to training with fixed backward policies, the nature of flow functions, and connections between entropy-regularized RL and non-acyclic GFlowNets, which naturally generalize the respective concepts and theoretical results from the acyclic setting. In addition, we experimentally re-examine the concept of loss stability in non-acyclic GFlowNet training, as well as validate our own theoretical findings.

arxiv情報

著者 Nikita Morozov,Ian Maksimov,Daniil Tiapkin,Sergey Samsonov
発行日 2025-02-11 17:55:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Revisiting Non-Acyclic GFlowNets in Discrete Environments はコメントを受け付けていません

HRP: High-Rank Preheating for Superior LoRA Initialization

要約

このホワイトペーパーでは、低ランク適応(LORA)の収束特性に対する初期化の重要な影響について説明します。
我々は、広く使用されているスキーマであるランダムな初期化が、最高の低ランク結果ではなく、LORAがランダムな低ランクの結果に導く可能性が高いことを理論的に示しています。
この問題は、初期化を十分な情報に基づいた方向に調整することで軽減できますが、ターゲットの事前知識に依存しています。これは通常、実際のシナリオでは不明です。
この十分な情報に基づいた初期方向を近似するために、ハイランク予熱(HRP)を提案します。これは、いくつかのステップでハイランクLORAを微調整し、予熱した結果の特異値分解を優れた初期化として使用します。
HRPの初期化は、高位LORAの収束強度と低ランクLORAの一般化強度を組み合わせるために、理論がサポートしています。
広範な実験は、HRPがさまざまなモデルやタスクにわたってLORAの有効性を大幅に向上させ、フルパラメーターの微調整に匹敵するパフォーマンスを達成し、他の初期化戦略を上回ることを実証しています。

要約(オリジナル)

This paper studies the crucial impact of initialization on the convergence properties of Low-Rank Adaptation (LoRA). We theoretically demonstrate that random initialization, a widely used schema, will likely lead LoRA to random low-rank results, rather than the best low-rank result. While this issue can be mitigated by adjusting initialization towards a well-informed direction, it relies on prior knowledge of the target, which is typically unknown in real-world scenarios. To approximate this well-informed initial direction, we propose High-Rank Preheating (HRP), which fine-tunes high-rank LoRA for a few steps and uses the singular value decomposition of the preheated result as a superior initialization. HRP initialization is theory-supported to combine the convergence strengths of high-rank LoRA and the generalization strengths of low-rank LoRA. Extensive experiments demonstrate that HRP significantly enhances LoRA’s effectiveness across various models and tasks, achieving performance comparable to full-parameter fine-tuning and outperforming other initialization strategies.

arxiv情報

著者 Yuzhu Chen,Yingjie Wang,Shi Fu,Li Shen,Yongcheng Jing,Xinmei Tian,Dacheng Tao
発行日 2025-02-11 17:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | HRP: High-Rank Preheating for Superior LoRA Initialization はコメントを受け付けていません