Adversarial Training of Reward Models

要約

報酬モデリングは、言語モデルのスケーラブルなアラインメントの有望なアプローチとして浮上しています。
ただし、現代の報酬モデル(RMS)はしばしば堅牢性を欠いており、低品質の分散型(OOD)サンプルに高い報酬を与えます。
これにより、ポリシーが意図しないショートカットを活用して報酬を最大化し、アラインメントを損なうハッキングに報酬を与える可能性があります。
この課題に対処するために、敵対的な例を自動的に識別する新しい敵対的な訓練フレームワークであるADV-RMを紹介します。これは、ターゲットRMから高い報酬を受け取るが、OODで低品質です。
補強学習を活用することにより、ADV-RMは、Nemotron 340B RMなどの最先端の大規模な報酬モデルで脆弱性を確実に暴露する敵対的な例を生成するためのポリシーを訓練します。
これらの敵対的な例を報酬トレーニングプロセスに組み込むと、RMSの堅牢性が向上し、報酬のハッキングを軽減し、RLHFのダウンストリームパフォーマンスを向上させます。
ADV-RMは、従来のRMトレーニングを大幅に上回り、安定性を高め、合成および実際の両方の設定でより効果的なRLHFトレーニングを可能にすることを実証します。

要約(オリジナル)

Reward modeling has emerged as a promising approach for the scalable alignment of language models. However, contemporary reward models (RMs) often lack robustness, awarding high rewards to low-quality, out-of-distribution (OOD) samples. This can lead to reward hacking, where policies exploit unintended shortcuts to maximize rewards, undermining alignment. To address this challenge, we introduce Adv-RM, a novel adversarial training framework that automatically identifies adversarial examples — responses that receive high rewards from the target RM but are OOD and of low quality. By leveraging reinforcement learning, Adv-RM trains a policy to generate adversarial examples that reliably expose vulnerabilities in large state-of-the-art reward models such as Nemotron 340B RM. Incorporating these adversarial examples into the reward training process improves the robustness of RMs, mitigating reward hacking and enhancing downstream performance in RLHF. We demonstrate that Adv-RM significantly outperforms conventional RM training, increasing stability and enabling more effective RLHF training in both synthetic and real-data settings.

arxiv情報

著者 Alexander Bukharin,Haifeng Qian,Shengyang Sun,Adithya Renduchintala,Soumye Singhal,Zhilin Wang,Oleksii Kuchaiev,Olivier Delalleau,Tuo Zhao
発行日 2025-04-08 15:38:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Adversarial Training of Reward Models はコメントを受け付けていません

Convexity in ReLU Neural Networks: beyond ICNNs?

要約

凸関数とその勾配は、近位最適化から最適な輸送まで、数学的イメージングに重要な役割を果たします。
深い学習の成功により、多くの人が学習ベースの方法を使用するようになりました。この方法では、固定機能またはオペレーターが学習したニューラルネットワークに置き換えられます。
経験的優位性に関係なく、これらの方法の厳密な保証を確立するには、多くの場合、神経アーキテクチャ、特に凸性に構造的制約を課す必要があります。
そうする最も一般的な方法は、いわゆる入力凸ニューラルネットワーク(ICNNS)を使用することです。
ICNNSの表現力を探るために、我々は、関係のあるニューラルネットワークが凸状であるために必要かつ十分な条件を提供します。
このような特性は、重みと活性化の積に基づいており、パスリフティングフレームワークのアーキテクチャに適切に書き込みます。
特定のアプリケーションとして、1および2ハイデッドレイヤーニューラルネットワークの特性を深く研究します。1hidden層レールネットワークによって実装されたすべての凸関数は、同じアーキテクチャを持つICNNによって表現できることを示します。
ただし、このプロパティは、より多くのレイヤーで保持されなくなりました。
最後に、多数のアフィン領域を備えたリリールニューラルネットワークの凸性の正確なチェックを可能にする数値手順を提供します。

要約(オリジナル)

Convex functions and their gradients play a critical role in mathematical imaging, from proximal optimization to Optimal Transport. The successes of deep learning has led many to use learning-based methods, where fixed functions or operators are replaced by learned neural networks. Regardless of their empirical superiority, establishing rigorous guarantees for these methods often requires to impose structural constraints on neural architectures, in particular convexity. The most popular way to do so is to use so-called Input Convex Neural Networks (ICNNs). In order to explore the expressivity of ICNNs, we provide necessary and sufficient conditions for a ReLU neural network to be convex. Such characterizations are based on product of weights and activations, and write nicely for any architecture in the path-lifting framework. As particular applications, we study our characterizations in depth for 1 and 2-hidden-layer neural networks: we show that every convex function implemented by a 1-hidden-layer ReLU network can be also expressed by an ICNN with the same architecture; however this property no longer holds with more layers. Finally, we provide a numerical procedure that allows an exact check of convexity for ReLU neural networks with a large number of affine regions.

arxiv情報

著者 Anne Gagneux,Mathurin Massias,Emmanuel Soubies,Rémi Gribonval
発行日 2025-04-08 15:49:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Convexity in ReLU Neural Networks: beyond ICNNs? はコメントを受け付けていません

Hall Effect Thruster Forecasting using a Topological Approach for Data Assimilation

要約

ホールエフェクトスラスタ(HETS)は、宇宙船から重いイオン化ガス粒子を排出してスラストを生成する電気スラスタです。
伝統的に駅の維持に使用されていましたが、最近、他のスラスタ、たとえば化学物質とは対照的に、デルタVの可能性が高いため、惑星間宇宙ミッションに使用されています。
ただし、HETSの動作には、ガスのイオン化、強力な磁場、複雑な太陽電池パワー供給の相互作用などの複雑なプロセスが含まれます。
したがって、それらの操作はモデル化するのが非常に困難であるため、運用状態を推定および予測するためにデータ同化(DA)アプローチを必要とします。
HETの操作環境はしばしばガウス以外のソースを使用してうるさいので、これにより適用可能なDAツールが大幅に制限されます。
ノイズモデルに依存しないこれらの制限をバイパスするデータ同化のトポロジー的アプローチを説明し、それを利用して、HETSの時空間的プルームフィールド状態を予測します。
私たちのアプローチは、さまざまな予測関数を含むデータ同化(TADA)方法のトポロジーアプローチの一般化です。
正確な予測のために、TADAを長期的なメモリネットワークと組み合わせる方法を示します。
次に、空軍研究所(AFRL)ロケット推進部門の高忠実度ホールエフェクトスラスター(HET)シミュレーションデータにアプローチを適用し、騒音が汚染された高次元データに関するTADAの予測回復力を実証します。

要約(オリジナル)

Hall Effect Thrusters (HETs) are electric thrusters that eject heavy ionized gas particles from the spacecraft to generate thrust. Although traditionally they were used for station keeping, recently They have been used for interplanetary space missions due to their high delta-V potential and their operational longevity in contrast to other thrusters, e.g., chemical. However, the operation of HETs involves complex processes such as ionization of gases, strong magnetic fields, and complicated solar panel power supply interactions. Therefore, their operation is extremely difficult to model thus necessitating Data Assimilation (DA) approaches for estimating and predicting their operational states. Because HET’s operating environment is often noisy with non-Gaussian sources, this significantly limits applicable DA tools. We describe a topological approach for data assimilation that bypasses these limitations that does not depend on the noise model, and utilize it to forecast spatiotemporal plume field states of HETs. Our approach is a generalization of the Topological Approach for Data Assimilation (TADA) method that allows including different forecast functions. We show how TADA can be combined with the Long Short-Term Memory network for accurate forecasting. We then apply our approach to high-fidelity Hall Effect Thruster (HET) simulation data from the Air Force Research Laboratory (AFRL) rocket propulsion division where we demonstrate the forecast resiliency of TADA on noise contaminated, high-dimensional data.

arxiv情報

著者 Max M. Chumley,Firas A. Khasawneh
発行日 2025-04-08 15:52:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Hall Effect Thruster Forecasting using a Topological Approach for Data Assimilation はコメントを受け付けていません

Topological Approach for Data Assimilation

要約

多くの動的システムは、高忠実度の物理ベースのモデルを使用してモデル化することが困難または不可能です。
その結果、研究者は、予測と予測を行うために、データ駆動型モデルにもっと依存しています。
限られたトレーニングデータに基づいて、機械学習モデルは、多くの場合、真のシステム状態から時間の経過とともに逸脱し、データ同化を使用して新しい測定が行われるため、継続的に更新する必要があります。
古典的なデータ同化アルゴリズムは、通常、不明な測定ノイズ統計の知識を必要とします。
この論文では、トポロジーデータ分析の基礎を備えた新しいデータ同化アルゴリズムを紹介します。
持続性の機能の分化性を活用することにより、測定からノイズ情報を使用せずにデータ駆動型モデル係数を調整することにより、測定と予測予測の間のトポロジカルな違いを最小限に抑えるために、勾配降下最適化を使用します。
その方法を説明し、Chaotic Lorenz 63システムを使用してその機能パフォーマンスに焦点を当て、その方法はLorenz 96システムの高次元の例で機能することも示します。

要約(オリジナル)

Many dynamical systems are difficult or impossible to model using high fidelity physics based models. Consequently, researchers are relying more on data driven models to make predictions and forecasts. Based on limited training data, machine learning models often deviate from the true system states over time and need to be continually updated as new measurements are taken using data assimilation. Classical data assimilation algorithms typically require knowledge of the measurement noise statistics which may be unknown. In this paper, we introduce a new data assimilation algorithm with a foundation in topological data analysis. By leveraging the differentiability of functions of persistence, gradient descent optimization is used to minimize topological differences between measurements and forecast predictions by tuning data driven model coefficients without using noise information from the measurements. We describe the method and focus on its capabilities performance using the chaotic Lorenz 63 system as an example and we also show that the method works on a higher dimensional example with the Lorenz 96 system.

arxiv情報

著者 Max M. Chumley,Firas A. Khasawneh
発行日 2025-04-08 15:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.AT, nlin.CD | Topological Approach for Data Assimilation はコメントを受け付けていません

Non-negative Tensor Mixture Learning for Discrete Density Estimation

要約

Kullback-Leiblerの発散を最適化する非陰性テンソル分解のための期待最大化(EM)ベースの統一フレームワークを提示します。
各Mステップおよび学習率の調整の反復を回避するために、低ランク分解と多体近似の間に一般的な関係を確立します。
この接続を使用して、多体近似の閉形型ソリューションがM-STEPですべてのパラメーターを同時に更新することを活用します。
私たちのフレームワークは、CP、タッカー、テンソル列車の分解など、さまざまな低ランク構造の統一された方法論だけでなく、それらの混合物も提供します。
特に、混合物中の各低ランクテンソルの重みは、データから学習できます。これにより、構造を事前に選択せずに、さまざまな低ランク構造の利点を活用できます。
私たちのフレームワークは、従来のテンソルベースのアプローチと比較した場合、離散密度の推定と分類に関して全体的に優れた一般化を提供することを経験的に実証します。

要約(オリジナル)

We present an expectation-maximization (EM) based unified framework for non-negative tensor decomposition that optimizes the Kullback-Leibler divergence. To avoid iterations in each M-step and learning rate tuning, we establish a general relationship between low-rank decompositions and many-body approximations. Using this connection, we exploit that the closed-form solution of the many-body approximation updates all parameters simultaneously in the M-step. Our framework offers not only a unified methodology for a variety of low-rank structures, including CP, Tucker, and Tensor Train decompositions, but also their mixtures. Notably, the weights of each low-rank tensor in the mixture can be learned from the data, which enables us to leverage the advantage of different low-rank structures without careful selection of the structure in advance. We empirically demonstrate that our framework overall provides superior generalization in terms of discrete density estimation and classification when compared to conventional tensor-based approaches.

arxiv情報

著者 Kazu Ghalamkari,Jesper Løve Hinrich,Morten Mørup
発行日 2025-04-08 16:22:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, cs.LG, I.2.6, stat.ML | Non-negative Tensor Mixture Learning for Discrete Density Estimation はコメントを受け付けていません

rEGGression: an Interactive and Agnostic Tool for the Exploration of Symbolic Regression Models

要約

回帰分析は、予測と、従属変数に対する独立変数の効果を理解するために使用されます。
Symbolic Regression(SR)は、非線形回帰モデルの検索を自動化し、精度と現象を理解する可能性のバランスをとる一連の仮説を提供します。
多くのSR実装は、パレートフロントを返し、最高のトレードオフを選択できるようにします。
ただし、これは非支配に近い代替案を隠し、これらの選択を制限します。
equalityグラフ(Eグラフ)により、複数の式で発生する重複した部品を効率的に処理することにより、大規模な式のセットをコンパクトに表すことができます。
E-Graphを使用すると、1つまたは複数のGPで訪問したすべてのSRソリューション候補を保存および照会し、効率的に実行し、SRソリューション候補のはるかに大きなセットを分析する可能性を開きます。
e-graphsを使用して、クエリ、フィルタリング、およびパターンマッチング機能を提供するシンボリック表現の大規模なセットの探索を可能にするツールであるリグレッションを導入します。
主なハイライトは、検索中に発見されたビルディングブロックの調査に焦点を当て、専門家が研究された現象についての洞察を見つけるのに役立つことです。これは、E-Graphデータ構造のパターンマッチング機能を活用することで可能です。

要約(オリジナル)

Regression analysis is used for prediction and to understand the effect of independent variables on dependent variables. Symbolic regression (SR) automates the search for non-linear regression models, delivering a set of hypotheses that balances accuracy with the possibility to understand the phenomena. Many SR implementations return a Pareto front allowing the choice of the best trade-off. However, this hides alternatives that are close to non-domination, limiting these choices. Equality graphs (e-graphs) allow to represent large sets of expressions compactly by efficiently handling duplicated parts occurring in multiple expressions. E-graphs allow to store and query all SR solution candidates visited in one or multiple GP runs efficiently and open the possibility to analyse much larger sets of SR solution candidates. We introduce rEGGression, a tool using e-graphs to enable the exploration of a large set of symbolic expressions which provides querying, filtering, and pattern matching features creating an interactive experience to gain insights about SR models. The main highlight is its focus in the exploration of the building blocks found during the search that can help the experts to find insights about the studied phenomena.This is possible by exploiting the pattern matching capability of the e-graph data structure.

arxiv情報

著者 Fabricio Olivetti de Franca,Gabriel Kronberger
発行日 2025-04-08 16:34:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | rEGGression: an Interactive and Agnostic Tool for the Exploration of Symbolic Regression Models はコメントを受け付けていません

Understanding Gradient Orthogonalization for Deep Learning via Non-Euclidean Trust-Region Optimization

要約

マトリックス勾配直交化による最適化は最近、深い神経ネットワークのトレーニングにおける印象的な結果を実証しました(Jordan et al。、2024; Liu et al。、2025)。
この論文では、このアプローチの理論的分析を提供します。
特に、直交化された勾配法は、信頼領域がマトリックススペクトルノルムの観点から定義されている1次信頼地域最適化法と見なすことができることを示しています。
この観察に動機付けられて、私たちは運動量を伴う確率的非ユークリッドの信頼地域勾配法を開発します。これは、Muon Optimizer(Jordan et al。、2024)を特別なケースとして回復し、運動量を伴う正規化されたSGDおよびsigngD(Cutkosky and Mehta、2020; Sun et al。、2023)を備えています。
さらに、提案されたアルゴリズムの最先端の収束結果は、任意の非ユークリッドの規範、制約された複合的な問題、および非概念、星のコンベックス、1次および2次のスムーズな機能を含むさまざまなシナリオで、提案されたアルゴリズムの結果を証明します。
最後に、我々の理論的調査結果は、Tuddenham et al。
(2022)および大規模な言語モデルのトレーニングにおける体重減衰の重要性。

要約(オリジナル)

Optimization with matrix gradient orthogonalization has recently demonstrated impressive results in the training of deep neural networks (Jordan et al., 2024; Liu et al., 2025). In this paper, we provide a theoretical analysis of this approach. In particular, we show that the orthogonalized gradient method can be seen as a first-order trust-region optimization method, where the trust-region is defined in terms of the matrix spectral norm. Motivated by this observation, we develop the stochastic non-Euclidean trust-region gradient method with momentum, which recovers the Muon optimizer (Jordan et al., 2024) as a special case, along with normalized SGD and signSGD with momentum (Cutkosky and Mehta, 2020; Sun et al., 2023). In addition, we prove state-of-the-art convergence results for the proposed algorithm in a range of scenarios, which involve arbitrary non-Euclidean norms, constrained and composite problems, and non-convex, star-convex, first- and second-order smooth functions. Finally, our theoretical findings provide an explanation for several practical observations, including the practical superiority of Muon compared to the Orthogonal-SGDM algorithm of Tuddenham et al. (2022) and the importance of weight decay in the training of large-scale language models.

arxiv情報

著者 Dmitry Kovalev
発行日 2025-04-08 16:47:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML | Understanding Gradient Orthogonalization for Deep Learning via Non-Euclidean Trust-Region Optimization はコメントを受け付けていません

Improving Genetic Programming for Symbolic Regression with Equality Graphs

要約

遺伝子プログラミング(GP)を使用したシンボリック回帰モデルの検索には、元の形式または同等の形式で表現を再検討する傾向があります。
同等の式を繰り返し評価することは、すぐにより良い解決策につながることはないため、非効率的です。
ただし、進化的アルゴリズムには多様性が必要であり、後の時点で重要な役割を果たすことができる非アクティブなビルディングブロックの蓄積を可能にする必要があります。
Equality Graphは、式とそれらの同等の形式をコンパクトに保存できるデータ構造であり、式が保存された等価形式のいずれかで訪問されたかどうかを効率的に検証できるようにします。
e-graphを利用して、表現を再訪する可能性を減らすためにサブツリー演算子を適応させます。
Eggpと呼ばれる私たちの適応は、e-Graphに訪問されたすべての表現を保存し、既に訪問された表現を作成するすべての組み合わせをサブツリーの利用可能な選択から除外することができます。
結果は、小さな表現の場合、このアプローチにより、単純なGPアルゴリズムのパフォーマンスが改善され、計算コストを増やすことなくPYSRやオペロンと競合することが示されています。
ハイライトとして、EGGPは、SRBenchから選択したベンチマークのセットと実際のデータセットのセットのために、短いモデルと同時に正確なモデルを確実に配信することができました。

要約(オリジナル)

The search for symbolic regression models with genetic programming (GP) has a tendency of revisiting expressions in their original or equivalent forms. Repeatedly evaluating equivalent expressions is inefficient, as it does not immediately lead to better solutions. However, evolutionary algorithms require diversity and should allow the accumulation of inactive building blocks that can play an important role at a later point. The equality graph is a data structure capable of compactly storing expressions and their equivalent forms allowing an efficient verification of whether an expression has been visited in any of their stored equivalent forms. We exploit the e-graph to adapt the subtree operators to reduce the chances of revisiting expressions. Our adaptation, called eggp, stores every visited expression in the e-graph, allowing us to filter out from the available selection of subtrees all the combinations that would create already visited expressions. Results show that, for small expressions, this approach improves the performance of a simple GP algorithm to compete with PySR and Operon without increasing computational cost. As a highlight, eggp was capable of reliably delivering short and at the same time accurate models for a selected set of benchmarks from SRBench and a set of real-world datasets.

arxiv情報

著者 Fabricio Olivetti de Franca,Gabriel Kronberger
発行日 2025-04-08 16:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Improving Genetic Programming for Symbolic Regression with Equality Graphs はコメントを受け付けていません

The Work Capacity of Channels with Memory: Maximum Extractable Work in Percept-Action Loops

要約

将来の観察を予測することは、機械学習、生物学、経済学、および他の多くの分野で中心的な役割を果たします。
それは、変分自由エネルギーの原則などの組織原則の中心にあり、順次情報処理の基本的なエネルギー制限に到達するために必要であることが示されています – 熱力学の第2の法則に基づいています。
予測パラダイムの有用性は議論の余地のない、環境と相互作用する複雑な適応システムは、単なる予測機以上のものです。彼らは環境に基づいて行動し、変化を引き起こす力を持っています。
この作業では、プロセプションアクションループ(エージェントと環境の相互作用のモデル)での情報処理の熱力学を分析するフレームワークを開発し、アクションと知覚の熱力学的意味を平等なフーティングに調査することができます。
この目的のために、作業能力の概念を紹介します。エージェントが環境から作業を抽出することを期待できる最大レートです。
我々の結果は、仕事効率の高いエージェントの以前に確立された2つの設計原則のいずれも、予測力を最大化し、過去の行動を忘れる – は、アクションが観察可能な結果を​​もたらす環境で最適であり続けていることを明らかにしています。
代わりに、トレードオフが出現します。仕事効率の良いエージェントは、過去の行動を覚えておくと利用可能な自由エネルギーを減らすことができるため、予測と忘却のバランスをとる必要があります。
これは、受動的観察の熱力学からの根本的な逸脱を強調し、アクティブな学習システムで予測とエネルギー効率が対立している可能性があることを示唆しています。

要約(オリジナル)

Predicting future observations plays a central role in machine learning, biology, economics, and many other fields. It lies at the heart of organizational principles such as the variational free energy principle and has even been shown — based on the second law of thermodynamics — to be necessary for reaching the fundamental energetic limits of sequential information processing. While the usefulness of the predictive paradigm is undisputed, complex adaptive systems that interact with their environment are more than just predictive machines: they have the power to act upon their environment and cause change. In this work, we develop a framework to analyze the thermodynamics of information processing in percept-action loops — a model of agent-environment interaction — allowing us to investigate the thermodynamic implications of actions and percepts on equal footing. To this end, we introduce the concept of work capacity — the maximum rate at which an agent can expect to extract work from its environment. Our results reveal that neither of two previously established design principles for work-efficient agents — maximizing predictive power and forgetting past actions — remains optimal in environments where actions have observable consequences. Instead, a trade-off emerges: work-efficient agents must balance prediction and forgetting, as remembering past actions can reduce the available free energy. This highlights a fundamental departure from the thermodynamics of passive observation, suggesting that prediction and energy efficiency may be at odds in active learning systems.

arxiv情報

著者 Lukas J. Fiderer,Paul C. Barth,Isaac D. Smith,Hans J. Briegel
発行日 2025-04-08 16:54:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.stat-mech, cs.IT, cs.LG, math.IT, nlin.AO, nlin.CD, quant-ph | The Work Capacity of Channels with Memory: Maximum Extractable Work in Percept-Action Loops はコメントを受け付けていません

NNN: Next-Generation Neural Networks for Marketing Mix Modeling

要約

従来の方法の主要な制限に対処するために設計されたマーケティングミックスモデリング(MMM)に対する変圧器ベースのニューラルネットワークアプローチであるNNNを提示します。
スカラー入力やパラメトリック減衰関数に依存する従来のMMMとは異なり、NNNは豊富な埋め込みを使用して、マーケティングチャネルとオーガニックチャネルの定量的側面と定性的な側面の両方をキャプチャします(たとえば、検索クエリ、広告クリエイティブ)。
これは、その注意メカニズムと組み合わせることで、NNNが複雑な相互作用をモデル化し、長期的な影響をキャプチャし、販売の帰属の正確性を改善する可能性があります。
L1の正則化により、典型的なデータが制約した設定でこのような表現モデルを使用できることが示されます。
シミュレートされた現実世界のデータでNNNを評価することは、特に予測力の大幅な改善を通じて、その有効性を示しています。
帰属を超えて、NNNは、キーワードや創造的な有効性の評価、モデルの解釈性を高めるなど、モデルプロービングを通じて貴重で補完的な洞察を提供します。

要約(オリジナル)

We present NNN, a Transformer-based neural network approach to Marketing Mix Modeling (MMM) designed to address key limitations of traditional methods. Unlike conventional MMMs which rely on scalar inputs and parametric decay functions, NNN uses rich embeddings to capture both quantitative and qualitative aspects of marketing and organic channels (e.g., search queries, ad creatives). This, combined with its attention mechanism, enables NNN to model complex interactions, capture long-term effects, and potentially improve sales attribution accuracy. We show that L1 regularization permits the use of such expressive models in typical data-constrained settings. Evaluating NNN on simulated and real-world data demonstrates its efficacy, particularly through considerable improvement in predictive power. Beyond attribution, NNN provides valuable, complementary insights through model probing, such as evaluating keyword or creative effectiveness, enhancing model interpretability.

arxiv情報

著者 Thomas Mulc,Mike Anderson,Paul Cubre,Huikun Zhang,Ivy Liu,Saket Kumar
発行日 2025-04-08 16:57:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.AP | NNN: Next-Generation Neural Networks for Marketing Mix Modeling はコメントを受け付けていません