Computation-Aware Kalman Filtering and Smoothing

要約

Kalmanのフィルタリングとスムージングは​​、Gauss-Markovモデルの効率的な推論の基礎メカニズムです。
ただし、それらの時間と記憶の複雑さは、状態空間のサイズと非常に拡大しています。
これは、空間的観測の数を持つ状態寸法がスケーリングされる空間的回帰問題では特に問題があります。
既存の近似フレームワークは、共分散行列の低ランク近似を活用します。
しかし、計算近似によって導入されたエラーをモデル化しないため、予測不確実性の推定値は過度に楽観的になる可能性があります。
この作業では、これらのスケーリングの問題を軽減する高次元ガウスマルコフモデルで推論する確率的数値方法を提案します。
当社のマトリックスフリーの反復アルゴリズムは、GPU加速度を活用し、計算コストと予測不確実性の間の調整可能なトレードオフを決定的に可能にします。
最後に、大規模な気候データセットでの方法のスケーラビリティを示します。

要約(オリジナル)

Kalman filtering and smoothing are the foundational mechanisms for efficient inference in Gauss-Markov models. However, their time and memory complexities scale prohibitively with the size of the state space. This is particularly problematic in spatiotemporal regression problems, where the state dimension scales with the number of spatial observations. Existing approximate frameworks leverage low-rank approximations of the covariance matrix. But since they do not model the error introduced by the computational approximation, their predictive uncertainty estimates can be overly optimistic. In this work, we propose a probabilistic numerical method for inference in high-dimensional Gauss-Markov models which mitigates these scaling issues. Our matrix-free iterative algorithm leverages GPU acceleration and crucially enables a tunable trade-off between computational cost and predictive uncertainty. Finally, we demonstrate the scalability of our method on a large-scale climate dataset.

arxiv情報

著者 Marvin Pförtner,Jonathan Wenger,Jon Cockayne,Philipp Hennig
発行日 2025-03-12 15:51:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA, stat.ML | Computation-Aware Kalman Filtering and Smoothing はコメントを受け付けていません

Learning Cascade Ranking as One Network

要約

Cascadeランキングは、推奨プラットフォームや広告プラットフォームなどの大規模なTOP-K選択システムの一般的なアーキテクチャです。
従来のトレーニング方法は、段階間の相互作用を無視して、単一段階の最適化に焦点を当てています。
RANKFLOWやFS-LTRなどの最近の進歩により、インタラクションが認識しているトレーニングパラダイムが導入されましたが、1)トレーニング目標をカスケードランキング全体(つまり、エンドツーエンドのリコール)の目標と整列させ、2)さまざまな段階の効果的なコラボレーションパターンを学ぶことに苦労しています。
これらの課題に対処するために、LCRONを提案します。LCRONは、グラウンドトゥルースアイテムがカスケードランキングによって選択され、システムの全体的な目的との整合を確保するという下限の確率から派生した新しい代理損失関数を導入します。
導出されたバウンドの特性によれば、各ステージの補助損失をさらに設計して、このバウンドの削減を促進し、より堅牢で効果的なTOP-K選択につながります。
Lcronは、統一ネットワークとしてカスケードランキングシステム全体のエンドツーエンドトレーニングを可能にします。
実験結果は、LCRONがパブリックベンチマークや産業用途での既存の方法よりも大幅に改善され、カスケードランキングトレーニングの重要な制限に対処し、システムパフォーマンスを大幅に向上させることを示しています。

要約(オリジナル)

Cascade Ranking is a prevalent architecture in large-scale top-k selection systems like recommendation and advertising platforms. Traditional training methods focus on single-stage optimization, neglecting interactions between stages. Recent advances such as RankFlow and FS-LTR have introduced interaction-aware training paradigms but still struggle to 1) align training objectives with the goal of the entire cascade ranking (i.e., end-to-end recall) and 2) learn effective collaboration patterns for different stages. To address these challenges, we propose LCRON, which introduces a novel surrogate loss function derived from the lower bound probability that ground truth items are selected by cascade ranking, ensuring alignment with the overall objective of the system. According to the properties of the derived bound, we further design an auxiliary loss for each stage to drive the reduction of this bound, leading to a more robust and effective top-k selection. LCRON enables end-to-end training of the entire cascade ranking system as a unified network. Experimental results demonstrate that LCRON achieves significant improvement over existing methods on public benchmarks and industrial applications, addressing key limitations in cascade ranking training and significantly enhancing system performance.

arxiv情報

著者 Yunli Wang,Zhen Zhang,Zhiqiang Wang,Zixuan Yang,Yu Li,Jian Yang,Shiyang Wen,Peng Jiang,Kun Gai
発行日 2025-03-12 15:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG | Learning Cascade Ranking as One Network はコメントを受け付けていません

Representation Retrieval Learning for Heterogeneous Data Integration

要約

ビッグデータの時代では、大規模でマルチモーダルデータセットがますます遍在しており、予測モデリングと科学的発見の前例のない機会を提供しています。
ただし、これらのデータセットは、既存の予測アルゴリズムの精度を妨げる可能性のある、共変量シフト、事後ドリフト、モダリティの欠落など、複雑な不均一性を示すことがよくあります。
これらの課題に対処するために、表現学習モジュール(代表者)をスパース誘発機械学習モデル(学習者)と統合する新しい表現検索($ r^2 $)フレームワークを提案します。
さらに、学習代表者に使用される効果的なデータソースを特徴とする代表者の「統合性」の概念を紹介し、プロパティを明示的に改善するための選択的統合ペナルティ(SIP)を提案します。
理論的には、$ r^2 $フレームワークがマルチタスク学習における従来のフルシェアリングの仮定を緩和し、部分的に共有された構造を可能にし、SIPが過剰なリスクバウンドの収束率を改善できることを実証します。
広範なシミュレーション研究は、フレームワークの経験的パフォーマンスを検証し、2つの実際のデータセットへのアプリケーションが既存のアプローチに対する優位性をさらに確認します。

要約(オリジナル)

In the era of big data, large-scale, multi-modal datasets are increasingly ubiquitous, offering unprecedented opportunities for predictive modeling and scientific discovery. However, these datasets often exhibit complex heterogeneity, such as covariate shift, posterior drift, and missing modalities, that can hinder the accuracy of existing prediction algorithms. To address these challenges, we propose a novel Representation Retrieval ($R^2$) framework, which integrates a representation learning module (the representer) with a sparsity-induced machine learning model (the learner). Moreover, we introduce the notion of ‘integrativeness’ for representers, characterized by the effective data sources used in learning representers, and propose a Selective Integration Penalty (SIP) to explicitly improve the property. Theoretically, we demonstrate that the $R^2$ framework relaxes the conventional full-sharing assumption in multi-task learning, allowing for partially shared structures, and that SIP can improve the convergence rate of the excess risk bound. Extensive simulation studies validate the empirical performance of our framework, and applications to two real-world datasets further confirm its superiority over existing approaches.

arxiv情報

著者 Qi Xu,Annie Qu
発行日 2025-03-12 15:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME | Representation Retrieval Learning for Heterogeneous Data Integration はコメントを受け付けていません

Federated Smoothing ADMM for Localization

要約

このペーパーでは、分散データ、非概念性、および非滑らかさが特徴の連合設定でのローカリゼーションの課題に対処します。
このような環境に固有のスケーラビリティと外れ値の問題に取り組むために、新しいフェデレートADMMフレームワーク内で$ \ ell_1 $ -NORMの定式化を採用する堅牢なアルゴリズムを提案します。
このアプローチは、総変動コンセンサス用語の反復滑らかな近似を統合し、減算された形式で表示される凸関数のモローエンベロープ近似を統合することにより、問題に対処します。
この変換により、問題が各反復でスムーズで弱く凸状であることが保証され、その結果、計算効率が向上し、推定精度が向上します。
提案されているアルゴリズムは、非同期更新と反復ごとの複数のクライアントの更新をサポートし、実際のフェデレーションシステムへの適応性を保証します。
提案されたアルゴリズムの信頼性を検証するために、この方法が固定点に収束することを示し、数値シミュレーションは、既存の最先端のローカリゼーション方法と比較して、収束速度と外れ値の回復力の優れたパフォーマンスを強調しています。

要約(オリジナル)

This paper addresses the challenge of localization in federated settings, which are characterized by distributed data, non-convexity, and non-smoothness. To tackle the scalability and outlier issues inherent in such environments, we propose a robust algorithm that employs an $\ell_1$-norm formulation within a novel federated ADMM framework. This approach addresses the problem by integrating an iterative smooth approximation for the total variation consensus term and employing a Moreau envelope approximation for the convex function that appears in a subtracted form. This transformation ensures that the problem is smooth and weakly convex in each iteration, which results in enhanced computational efficiency and improved estimation accuracy. The proposed algorithm supports asynchronous updates and multiple client updates per iteration, which ensures its adaptability to real-world federated systems. To validate the reliability of the proposed algorithm, we show that the method converges to a stationary point, and numerical simulations highlight its superior performance in convergence speed and outlier resilience compared to existing state-of-the-art localization methods.

arxiv情報

著者 Reza Mirzaeifard,Ashkan Moradi,Masahiro Yukawa,Stefan Werner
発行日 2025-03-12 16:01:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Federated Smoothing ADMM for Localization はコメントを受け付けていません

Multiscale Stochastic Gradient Descent: Efficiently Training Convolutional Neural Networks

要約

確率的勾配降下(SGD)は、現代の深い学習最適化の基礎ですが、高解像度データで畳み込みニューラルネットワーク(CNN)をトレーニングするとますます非効率になります。
このペーパーでは、マルチスケール確率勾配降下(Multiscale-SGD)を紹介します。これは、粗からファインまでのトレーニング戦略を活用して、勾配をわずかなコストで推定し、モデルの精度を維持しながらSGDタイプ方法の計算効率を改善する新しい最適化アプローチです。
マルチスケールSGDが効果的であるための理論的基準を導き出し、標準の畳み込みを使用できる一方で、騒々しいデータの最適ではないことを示します。
これにより、解像度全体で一貫したグラデーションの動作を確保し、マルチスケールトレーニングに適した、学習可能なスケールに依存しないメッシュフリーの畳み込み(MFC)の新しいクラスを導入することになります。
広範な経験的検証を通じて、実際には、(i)マルチスケールSGDアプローチを使用して、さまざまなタスクのさまざまなアーキテクチャをトレーニングできること、および(ii)ノイズが有意でない場合、標準的な畳み込みはマルチスケールトレーニングフレームワークの恩恵を受けることを実証します。
私たちの結果は、深いネットワークの効率的なトレーニングのための新しいパラダイムを確立し、高解像度およびマルチスケール学習タスクの実用的なスケーラビリティを可能にします。

要約(オリジナル)

Stochastic Gradient Descent (SGD) is the foundation of modern deep learning optimization but becomes increasingly inefficient when training convolutional neural networks (CNNs) on high-resolution data. This paper introduces Multiscale Stochastic Gradient Descent (Multiscale-SGD), a novel optimization approach that exploits coarse-to-fine training strategies to estimate the gradient at a fraction of the cost, improving the computational efficiency of SGD type methods while preserving model accuracy. We derive theoretical criteria for Multiscale-SGD to be effective, and show that while standard convolutions can be used, they can be suboptimal for noisy data. This leads us to introduce a new class of learnable, scale-independent Mesh-Free Convolutions (MFCs) that ensure consistent gradient behavior across resolutions, making them well-suited for multiscale training. Through extensive empirical validation, we demonstrate that in practice, (i) our Multiscale-SGD approach can be used to train various architectures for a variety of tasks, and (ii) when the noise is not significant, standard convolutions benefit from our multiscale training framework. Our results establish a new paradigm for the efficient training of deep networks, enabling practical scalability in high-resolution and multiscale learning tasks.

arxiv情報

著者 Niloufar Zakariaei,Shadab Ahamed,Eldad Haber,Moshe Eliasof
発行日 2025-03-12 16:05:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Multiscale Stochastic Gradient Descent: Efficiently Training Convolutional Neural Networks はコメントを受け付けていません

Analyzing the Role of Permutation Invariance in Linear Mode Connectivity

要約

Entezariらで経験的に観察されました。
(2021)ニューラルネットワークの順列不変性を考慮している場合、2つのSGDソリューション間の線形補間に沿って損失障壁がない可能性があります。
この現象は、その理論的関心とモデルのマージなどのアプリケーションにおける実際的な関連性の両方のために、大きな注目を集めています。
このホワイトペーパーでは、教師と学生のセットアップの下で、2層のレリューネットワークのこの現象の細粒分析を提供します。
学生ネットワークの幅$ m $が増加すると、LMC損失障壁モジュロ順列が二重降下挙動を示すことを示します。
特に、$ m $が十分に大きい場合、$ o(m^{-1/2})$でバリアがゼロに減少します。
特に、このレートは次元の呪いに悩まされておらず、順列がLMC損失障壁をどのように減らすことができるかを示しています。
さらに、学習速度を上げるときにGD/SGDソリューションのスパース性の急激な遷移を観察し、このスパースの好みがLMC損失障壁測定値にどのように影響するかを調査します。
合成データセットとMNISTデータセットの両方での実験は、理論的予測を裏付け、より複雑なネットワークアーキテクチャの同様の傾向を明らかにします。

要約(オリジナル)

It was empirically observed in Entezari et al. (2021) that when accounting for the permutation invariance of neural networks, there is likely no loss barrier along the linear interpolation between two SGD solutions — a phenomenon known as linear mode connectivity (LMC) modulo permutation. This phenomenon has sparked significant attention due to both its theoretical interest and practical relevance in applications such as model merging. In this paper, we provide a fine-grained analysis of this phenomenon for two-layer ReLU networks under a teacher-student setup. We show that as the student network width $m$ increases, the LMC loss barrier modulo permutation exhibits a double descent behavior. Particularly, when $m$ is sufficiently large, the barrier decreases to zero at a rate $O(m^{-1/2})$. Notably, this rate does not suffer from the curse of dimensionality and demonstrates how substantial permutation can reduce the LMC loss barrier. Moreover, we observe a sharp transition in the sparsity of GD/SGD solutions when increasing the learning rate and investigate how this sparsity preference affects the LMC loss barrier modulo permutation. Experiments on both synthetic and MNIST datasets corroborate our theoretical predictions and reveal a similar trend for more complex network architectures.

arxiv情報

著者 Keyao Zhan,Puheng Li,Lei Wu
発行日 2025-03-12 16:22:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Analyzing the Role of Permutation Invariance in Linear Mode Connectivity はコメントを受け付けていません

Large Language Models for Multi-Facility Location Mechanism Design

要約

エージェントの好みに基づいてソーシャルコストを最適化する多目的位置のための戦略的なメカニズムの設計は、必要な広範なドメイン知識と最悪のケースの保証が低いために困難でした。
最近、ディープラーニングモデルが代替案として提案されています。
ただし、これらのモデルには、ドメインの知識と広範なハイパーパラメーターの調整、および解釈可能性が不足している必要があります。これは、学習メカニズムの透明性が必須である場合に実際に重要です。
この論文では、LLMMECHという名前の新しいアプローチを紹介します。これは、大規模な言語モデル(LLM)を、解釈可能なハイパーパラメーターフリー、経験的に戦略的、ほぼ最適なメカニズムを生成するための進化的フレームワークに組み込むことにより、これらの制限に対処します。
私たちの実験結果は、社会的コストがエージェント全体で任意に重み付けされ、エージェントの好みが均一に分布していないさまざまな問題設定で評価され、LLM生成メカニズムが一般に既存の手作りのベースラインと深い学習モデルを上回ることを示しています。
さらに、このメカニズムは、分散剤の好みと、より多くのエージェントを持つより大きなインスタンスに印象的な一般化可能性を示します。

要約(オリジナル)

Designing strategyproof mechanisms for multi-facility location that optimize social costs based on agent preferences had been challenging due to the extensive domain knowledge required and poor worst-case guarantees. Recently, deep learning models have been proposed as alternatives. However, these models require some domain knowledge and extensive hyperparameter tuning as well as lacking interpretability, which is crucial in practice when transparency of the learned mechanisms is mandatory. In this paper, we introduce a novel approach, named LLMMech, that addresses these limitations by incorporating large language models (LLMs) into an evolutionary framework for generating interpretable, hyperparameter-free, empirically strategyproof, and nearly optimal mechanisms. Our experimental results, evaluated on various problem settings where the social cost is arbitrarily weighted across agents and the agent preferences may not be uniformly distributed, demonstrate that the LLM-generated mechanisms generally outperform existing handcrafted baselines and deep learning models. Furthermore, the mechanisms exhibit impressive generalizability to out-of-distribution agent preferences and to larger instances with more agents.

arxiv情報

著者 Nguyen Thach,Fei Liu,Houyu Zhou,Hau Chan
発行日 2025-03-12 16:49:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Large Language Models for Multi-Facility Location Mechanism Design はコメントを受け付けていません

Neural Network-Based Change Point Detection for Large-Scale Time-Evolving Data

要約

このペーパーでは、多変量時間発生データの変化点を検出して検索する問題を研究しています。
問題には統計と信号処理に長い歴史があり、さまざまなアルゴリズムが主に単純なパラメトリックモデル向けに開発されています。
この作業では、フィードフォワードニューラルネットワークを介してデータのモデリングに焦点を当て、次の2段階の手順に基づいて検出戦略を開発します。
最初のステップでは、ニューラルネットワークは、データの事前に指定されたウィンドウでトレーニングされ、そのテストエラー関数は別の事前に指定されたウィンドウで校正されます。
次に、テストエラー関数が移動ウィンドウで使用され、変更点を識別します。
変更点が検出されると、これらの2つのステップを含む手順は、すべての変更点が特定されるまで繰り返されます。
提案された戦略は、データ生成プロセスの時間的依存の下での変化ポイントの数と位置の両方の一貫した推定値をもたらします。
提案された戦略の有効性は、アルゴリズムの実際のチューニングパラメーターと実際のデータセットを選択する方法に関する洞察を提供する合成データセットに示されています。
最後に、検出戦略は一般的であり、さまざまなニューラルネットワークアーキテクチャで動作できるが、提供される理論的保証はフィードフォワードニューラルアーキテクチャに固有のものであることに注意してください。

要約(オリジナル)

The paper studies the problem of detecting and locating change points in multivariate time-evolving data. The problem has a long history in statistics and signal processing and various algorithms have been developed primarily for simple parametric models. In this work, we focus on modeling the data through feed-forward neural networks and develop a detection strategy based on the following two-step procedure. In the first step, the neural network is trained over a prespecified window of the data, and its test error function is calibrated over another prespecified window. Then, the test error function is used over a moving window to identify the change point. Once a change point is detected, the procedure involving these two steps is repeated until all change points are identified. The proposed strategy yields consistent estimates for both the number and the locations of the change points under temporal dependence of the data-generating process. The effectiveness of the proposed strategy is illustrated on synthetic data sets that provide insights on how to select in practice tuning parameters of the algorithm and in real data sets. Finally, we note that although the detection strategy is general and can work with different neural network architectures, the theoretical guarantees provided are specific to feed-forward neural architectures.

arxiv情報

著者 Jialiang Geng,George Michailidis
発行日 2025-03-12 16:58:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.AP, stat.CO, stat.ME, stat.ML | Neural Network-Based Change Point Detection for Large-Scale Time-Evolving Data はコメントを受け付けていません

A Generative Framework for Predictive Modeling of Multiple Chronic Conditions Using Graph Variational Autoencoder and Bandit-Optimized Graph Neural Network

要約

MCCが患者の転帰とヘルスケアコストに大きな影響を与えるため、複数の慢性疾患(MCC)の出現(MCC)の出現を予測することは重要です。
グラフニューラルネットワーク(GNNS)は、MCCに見られるような複雑なグラフデータをモデル化するための効果的な方法です。
ただし、GNNSの重要な課題は、既存のグラフ構造に依存することです。これは、MCCが容易に入手できません。
この課題に対処するために、データの分布を利用してMCCの予測分析を強化することにより、代表的な基礎となるグラフ構造を構築するGNNの新しい生成フレームワークを提案します。
私たちのフレームワークでは、グラフ変異オートエンコーダー(GVAE)を採用して、患者データの複雑な関係をキャプチャします。
これにより、個々の健康軌跡を包括的に理解することができ、元の機能セットを保持しながら、多様な患者の確率的類似性グラフの作成を促進します。
次に、GVAEデコーダーから生成された患者の確率的類似性グラフのこれらのバリエーションは、新しいLaplacian Remulization技術を使用してGNNによって処理され、時間の経過とともにグラフ構造を改良し、MCCの予測精度を向上させます。
コンテキストバンディットは、確率的に生成されたグラフを評価し、モデルの収束までGNNモデルの最良のパフォーマンスグラフを反復的に識別するように設計されています。
MCC患者の大規模コホート(n = 1,592)で、$ \ varepsilon $ greedyおよびMulti-aremed Banditアルゴリズムに対する提案されたコンテキストバンディットアルゴリズムのパフォーマンスを検証します。
これらの進歩は、予測医療分析を変換するための提案されたアプローチの可能性を強調し、MCC管理に対するよりパーソナライズされ積極的なアプローチを可能にします。

要約(オリジナル)

Predicting the emergence of multiple chronic conditions (MCC) is crucial for early intervention and personalized healthcare, as MCC significantly impacts patient outcomes and healthcare costs. Graph neural networks (GNNs) are effective methods for modeling complex graph data, such as those found in MCC. However, a significant challenge with GNNs is their reliance on an existing graph structure, which is not readily available for MCC. To address this challenge, we propose a novel generative framework for GNNs that constructs a representative underlying graph structure by utilizing the distribution of the data to enhance predictive analytics for MCC. Our framework employs a graph variational autoencoder (GVAE) to capture the complex relationships in patient data. This allows for a comprehensive understanding of individual health trajectories and facilitates the creation of diverse patient stochastic similarity graphs while preserving the original feature set. These variations of patient stochastic similarity graphs, generated from the GVAE decoder, are then processed by a GNN using a novel Laplacian regularization technique to refine the graph structure over time and improves the prediction accuracy of MCC. A contextual Bandit is designed to evaluate the stochastically generated graphs and identify the best-performing graph for the GNN model iteratively until model convergence. We validate the performance of the proposed contextual Bandit algorithm against $\varepsilon$-Greedy and multi-armed Bandit algorithms on a large cohort (n = 1,592) of patients with MCC. These advancements highlight the potential of the proposed approach to transform predictive healthcare analytics, enabling a more personalized and proactive approach to MCC management.

arxiv情報

著者 Julian Carvajal Rico,Adel Alaeddini,Syed Hasib Akhter Faruqui,Susan P Fisher-Hoch,Joseph B Mccormick
発行日 2025-03-12 17:08:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | A Generative Framework for Predictive Modeling of Multiple Chronic Conditions Using Graph Variational Autoencoder and Bandit-Optimized Graph Neural Network はコメントを受け付けていません

Strategyproof Reinforcement Learning from Human Feedback

要約

私たちは、多様な好みを持つ複数の個人が、最終的なポリシーを有利に揺さぶるために戦略的にフィードバックを提供する人間のフィードバック(RLHF)から強化学習を研究しています。
既存のRLHFメソッドは戦略的なプルーフではないことを示しています。これにより、$ K $の個人のうち1人だけが好みを戦略的に報告している場合でも、実質的に並列されたポリシーを学習する可能性があります。
また、戦略的なRLHFアルゴリズムは、インセンティブアライメントとポリシーアラインメントの間の固有のトレードオフを強調して、最適なポリシーよりも$ k $ k-timesを実行する必要があることがわかります。
次に、適切なカバレッジの仮定の下で、ほぼ戦略的なプルーフであり、個人とサンプルの数が増えるにつれて最適なポリシーに収束する悲観的な中央値アルゴリズムを提案します。

要約(オリジナル)

We study Reinforcement Learning from Human Feedback (RLHF), where multiple individuals with diverse preferences provide feedback strategically to sway the final policy in their favor. We show that existing RLHF methods are not strategyproof, which can result in learning a substantially misaligned policy even when only one out of $k$ individuals reports their preferences strategically. In turn, we also find that any strategyproof RLHF algorithm must perform $k$-times worse than the optimal policy, highlighting an inherent trade-off between incentive alignment and policy alignment. We then propose a pessimistic median algorithm that, under appropriate coverage assumptions, is approximately strategyproof and converges to the optimal policy as the number of individuals and samples increases.

arxiv情報

著者 Thomas Kleine Buening,Jiarui Gan,Debmalya Mandal,Marta Kwiatkowska
発行日 2025-03-12 17:25:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Strategyproof Reinforcement Learning from Human Feedback はコメントを受け付けていません