Do Contemporary CATE Models Capture Real-World Heterogeneity? Findings from a Large-Scale Benchmark

要約

条件付き平均治療効果 (CATE) 推定アルゴリズムを評価した大規模なベンチマーク研究からの予期せぬ発見を紹介します。
43,200 のデータセットにわたって 16 の最新の CATE モデルを実行したところ、次のことがわかりました。(a) CATE 推定値の 62\% は、単純なゼロ効果予測子よりも平均二乗誤差 (MSE) が高く、効果がありません。
(b) 少なくとも 1 つの有用な CATE 推定値を含むデータセットでは、80% が定数効果モデルよりも高い MSE を示しています。
(c) 直交性ベースのモデルは、そのパフォーマンスについて楽観的な見方が広まっているにもかかわらず、他のモデルを上回るパフォーマンスを示す確率はわずか 30% です。
これらの発見は、現在の CATE モデルの重大な限界を明らかにし、さらなる研究の十分な機会を示唆しています。
私たちの発見は、\textit{観察サンプリング} の新しいアプリケーションから生まれました。このアプリケーションは、もともと実験データを使用した観察方法からの平均治療効果 (ATE) 推定値を評価するために開発されました。
CATE 評価に観測サンプリングを適応させるために、MSE から定数を引いたものに等しい統計パラメーター $Q$ を導入し、MSE によるモデルのランキングを保存します。
次に、実世界のデータから計算できる、総称して $\hat{Q}$ と呼ばれる標本統計量のファミリーを導出します。
$\hat{Q}$ が穏やかな技術条件下で $Q$ の一貫した推定量であることを証明します。
観測サンプリングで使用される場合、$\hat{Q}$ は不偏であり、最小の MSE を持つモデルを漸近的に選択します。
ベンチマークが現実世界の不均質性を反映していることを確認するために、シミュレーションではなくフィールドから結果が得られるデータセットを厳選しています。
新しい観測サンプリング手法、新しい統計、現実世界のデータセットを組み合わせることで、このベンチマークは CATE 推定器のパフォーマンスに関する独自の視点を提供し、現実世界の不均一性を捉える際のギャップを明らかにします。

要約(オリジナル)

We present unexpected findings from a large-scale benchmark study evaluating Conditional Average Treatment Effect (CATE) estimation algorithms. By running 16 modern CATE models across 43,200 datasets, we find that: (a) 62\% of CATE estimates have a higher Mean Squared Error (MSE) than a trivial zero-effect predictor, rendering them ineffective; (b) in datasets with at least one useful CATE estimate, 80\% still have higher MSE than a constant-effect model; and (c) Orthogonality-based models outperform other models only 30\% of the time, despite widespread optimism about their performance. These findings expose significant limitations in current CATE models and suggest ample opportunities for further research. Our findings stem from a novel application of \textit{observational sampling}, originally developed to evaluate Average Treatment Effect (ATE) estimates from observational methods with experiment data. To adapt observational sampling for CATE evaluation, we introduce a statistical parameter, $Q$, equal to MSE minus a constant and preserves the ranking of models by their MSE. We then derive a family of sample statistics, collectively called $\hat{Q}$, that can be computed from real-world data. We prove that $\hat{Q}$ is a consistent estimator of $Q$ under mild technical conditions. When used in observational sampling, $\hat{Q}$ is unbiased and asymptotically selects the model with the smallest MSE. To ensure the benchmark reflects real-world heterogeneity, we handpick datasets where outcomes come from field rather than simulation. By combining the new observational sampling method, new statistics, and real-world datasets, the benchmark provides a unique perspective on CATE estimator performance and uncover gaps in capturing real-world heterogeneity.

arxiv情報

著者 Haining Yu,Yizhou Sun
発行日 2024-10-09 16:04:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする

Distributionally Robust Clustered Federated Learning: A Case Study in Healthcare

要約

このペーパーでは、クロスサイロ フェデレーテッド ラーニング (CS-RCFL) と名付けた新しいアルゴリズムを導入することで、クロスサイロ フェデレーション ラーニングにおける異種データ分散の課題に対処します。
私たちのアプローチは、ワッサーシュタイン距離を利用して、各クライアントの経験的分布を中心とした曖昧性セットを構築し、ローカル データ内で起こり得る分布シフトを捕捉し、最悪の場合のモデル パフォーマンスの評価を可能にします。
次に、統計的に不均一なクライアント データセットによって引き起こされるローカル モデルのバイアスを回避するために、クライアントを連合に分散する最適な分布的に堅牢なクラスタリングを決定するモデルに依存しない整数分数プログラムを提案し、線形回帰モデルとロジスティック回帰モデルの方法を分析します。
最後に、クライアント配信のプライバシーを確​​保するフェデレーテッド ラーニング プロトコルについて説明します。これは、クライアントが医療機関である場合などに重要な考慮事項です。
私たちは合成および現実世界の医療データに基づいてアルゴリズムを評価します。

要約(オリジナル)

In this paper, we address the challenge of heterogeneous data distributions in cross-silo federated learning by introducing a novel algorithm, which we term Cross-silo Robust Clustered Federated Learning (CS-RCFL). Our approach leverages the Wasserstein distance to construct ambiguity sets around each client’s empirical distribution that capture possible distribution shifts in the local data, enabling evaluation of worst-case model performance. We then propose a model-agnostic integer fractional program to determine the optimal distributionally robust clustering of clients into coalitions so that possible biases in the local models caused by statistically heterogeneous client datasets are avoided, and analyze our method for linear and logistic regression models. Finally, we discuss a federated learning protocol that ensures the privacy of client distributions, a critical consideration, for instance, when clients are healthcare institutions. We evaluate our algorithm on synthetic and real-world healthcare data.

arxiv情報

著者 Xenia Konti,Hans Riess,Manos Giannopoulos,Yi Shen,Michael J. Pencina,Nicoleta J. Economou-Zavlanos,Michael M. Zavlanos
発行日 2024-10-09 16:25:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

A Poincaré Inequality and Consistency Results for Signal Sampling on Large Graphs

要約

学習モデルの複雑さはグラフのサイズに応じて増加するため、大規模なグラフ機械学習は困難です。
グラフのサブサンプリングは実行可能な代替手段ですが、グラフは非ユークリッドであるため、グラフのサンプリングは自明ではありません。
既存のグラフ サンプリング手法では、大きな行列のスペクトルを計算するだけでなく、グラフが変化するとき、たとえば成長するときにこれらの計算を繰り返すことも必要です。
この論文では、グラフ リミットの一種であるグラフオンに対する信号サンプリング理論を紹介します。
グラフオン信号のポアンカレ不等式を証明し、この不等式を満たすノード サブセットの補集合がグラフオン信号のペイリー ウィナー空間の一意のサンプリング セットであることを示します。
スペクトル クラスタリングとガウス消去法との関係を利用して、収束グラフ シーケンス上の固有のサンプリング セットがグラフオン上の固有のサンプリング セットに収束するという意味で、そのようなサンプリング セットが一貫していることを証明します。
次に、大規模なグラフに関連するグラフオン信号サンプリング アルゴリズムを提案し、グラフ機械学習タスクでの優れた経験的パフォーマンスを実証します。

要約(オリジナル)

Large-scale graph machine learning is challenging as the complexity of learning models scales with the graph size. Subsampling the graph is a viable alternative, but sampling on graphs is nontrivial as graphs are non-Euclidean. Existing graph sampling techniques require not only computing the spectra of large matrices but also repeating these computations when the graph changes, e.g., grows. In this paper, we introduce a signal sampling theory for a type of graph limit — the graphon. We prove a Poincar\’e inequality for graphon signals and show that complements of node subsets satisfying this inequality are unique sampling sets for Paley-Wiener spaces of graphon signals. Exploiting connections with spectral clustering and Gaussian elimination, we prove that such sampling sets are consistent in the sense that unique sampling sets on a convergent graph sequence converge to unique sampling sets on the graphon. We then propose a related graphon signal sampling algorithm for large graphs, and demonstrate its good empirical performance on graph machine learning tasks.

arxiv情報

著者 Thien Le,Luana Ruiz,Stefanie Jegelka
発行日 2024-10-09 16:28:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする

Online Epsilon Net and Piercing Set for Geometric Concepts

要約

VC 次元と $\varepsilon$-nets は、統計的学習理論の重要な概念です。
直観的には、VC 次元はセットのクラスのサイズの尺度です。
離散幾何学の基本的な結果である有名な $\varepsilon$-net 定理は、集合系の VC 次元が有界である場合、十分に大きな集合すべてと交差する小さなサンプルが存在すると主張します。
データが順次到着するオンライン学習シナリオでは、VC 次元は集合システムの複雑さを制限するのに役立ち、$\varepsilon$-nets は小さな代表的な集合の選択を保証します。
このサンプリング フレームワークは、空間データ分析、動的環境での動作計画、センサー ネットワークの最適化、コンピューター ビジョンでの特徴抽出など、さまざまな分野で重要です。
これらの応用を動機として、私たちは有界 VC 次元を持つ幾何学的概念に対するオンライン $\varepsilon$-net 問題を研究します。
この問題のオフライン バージョンについては広く研究されていますが、驚くべきことに、オンライン バージョンに関する理論的な結果は現在まで知られていません。
$\mathbb{R}$ の区間に最適な競争率を備えた最初の決定論的オンライン アルゴリズムを提示します。
次に、$\mathbb{R}^d$、$d\le 3$ の軸に整列したボックスに対して最適に近い競合比を持つランダム化オンライン アルゴリズムを与えます。
さらに、$\mathbb{R}^d$ で一定の​​記述複雑さを持つ同様のサイズのオブジェクトを分析するための新しい手法を紹介します。これは独立した興味深いものになる可能性があります。
次に、この問題の連続バージョンに焦点を当てます。この問題では、集合系の範囲はオンライン形式で到達する $\mathbb{R}^d$ の幾何学的概念ですが、宇宙は空間全体であり、目的は
すべての範囲と交差する小さなサンプルを選択します。

要約(オリジナル)

VC-dimension and $\varepsilon$-nets are key concepts in Statistical Learning Theory. Intuitively, VC-dimension is a measure of the size of a class of sets. The famous $\varepsilon$-net theorem, a fundamental result in Discrete Geometry, asserts that if the VC-dimension of a set system is bounded, then a small sample exists that intersects all sufficiently large sets. In online learning scenarios where data arrives sequentially, the VC-dimension helps to bound the complexity of the set system, and $\varepsilon$-nets ensure the selection of a small representative set. This sampling framework is crucial in various domains, including spatial data analysis, motion planning in dynamic environments, optimization of sensor networks, and feature extraction in computer vision, among others. Motivated by these applications, we study the online $\varepsilon$-net problem for geometric concepts with bounded VC-dimension. While the offline version of this problem has been extensively studied, surprisingly, there are no known theoretical results for the online version to date. We present the first deterministic online algorithm with an optimal competitive ratio for intervals in $\mathbb{R}$. Next, we give a randomized online algorithm with a near-optimal competitive ratio for axis-aligned boxes in $\mathbb{R}^d$, for $d\le 3$. Furthermore, we introduce a novel technique to analyze similar-sized objects of constant description complexity in $\mathbb{R}^d$, which may be of independent interest. Next, we focus on the continuous version of this problem, where ranges of the set system are geometric concepts in $\mathbb{R}^d$ arriving in an online manner, but the universe is the entire space, and the objective is to choose a small sample that intersects all the ranges.

arxiv情報

著者 Sujoy Bhore,Devdan Dey,Satyam Singh
発行日 2024-10-09 16:58:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.LG | コメントする

InAttention: Linear Context Scaling for Transformers

要約

トランスフォーマー モデルの VRAM 要件は、セルフ アテンション メカニズムにより、コンテキストの長さに応じて二次的に増加します。
この論文では、デコーダのみのトランスフォーマを変更し、セルフ アテンションを Intention に置き換えます。これは、トークンを初期状態のみにアテンションさせることで、推論中にコンテキストの長さに線形にスケールします。
ベンチマークでは、Intention が推論中の VRAM 使用量を大幅に削減し、コンシューマー GPU での長いシーケンスの処理を可能にすることが示されています。
微調整によりコンテキストの長さが効率的に拡張され、高いトレーニング コストをかけずに長いシーケンスのパフォーマンスが向上することが確認されました。
Intention は、変圧器モデルの長距離依存関係に対するスケーラブルなソリューションを提供し、さらなる最適化への道を開きます。

要約(オリジナル)

VRAM requirements for transformer models scale quadratically with context length due to the self-attention mechanism. In this paper we modify the decoder-only transformer, replacing self-attention with InAttention, which scales linearly with context length during inference by having tokens attend only to initial states. Benchmarking shows that InAttention significantly reduces VRAM usage during inference, enabling handling of long sequences on consumer GPUs. We corroborate that fine-tuning extends context length efficiently, improving performance on long sequences without high training costs. InAttention offers a scalable solution for long-range dependencies in transformer models, paving the way for further optimization.

arxiv情報

著者 Joseph Eisner
発行日 2024-10-09 17:05:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Population Transformer: Learning Population-level Representations of Neural Activity

要約

我々は、神経記録の任意のアンサンブルに対する集団レベルのコードを大規模に学習する自己教師ありフレームワークを提示します。
私たちは、神経時系列データを使用してモデルをスケーリングする際の 2 つの重要な課題、つまり被験者とデータセットにわたるまばらで可変な電極分布に取り組みます。
Population Transformer (PopT) は、事前トレーニングされた表現の上に積み重ねられ、複数の空間的に疎なデータ チャネルの学習された集約を可能にすることで、ダウンストリームのデコードを強化します。
事前トレーニングされた PopT は、ダウンストリームのデコード実験に必要なデータ量を削減しながら、保留された被験者やタスクでも精度を向上させます。
エンドツーエンドの方法と比較して、このアプローチは計算が軽量で解釈しやすいと同時に、競争力のあるパフォーマンスを維持します。
さらに、私たちのフレームワークが複数の時系列埋め込みとニューラル データ モダリティにどのように一般化できるかを示します。
デコードを超えて、事前トレーニングされた PopT モデルと微調整されたモデルを解釈して、それらを使用して大量のデータから神経科学の洞察を抽出する方法を示します。
マルチチャネル頭蓋内データのデコードと解釈性の既製の改善を可能にするために、コードと事前トレーニングされた PopT をリリースします。

要約(オリジナル)

We present a self-supervised framework that learns population-level codes for arbitrary ensembles of neural recordings at scale. We address two key challenges in scaling models with neural time-series data: sparse and variable electrode distribution across subjects and datasets. The Population Transformer (PopT) stacks on top of pretrained representations and enhances downstream decoding by enabling learned aggregation of multiple spatially-sparse data channels. The pretrained PopT lowers the amount of data required for downstream decoding experiments, while increasing accuracy, even on held-out subjects and tasks. Compared to end-to-end methods, this approach is computationally lightweight and more interpretable, while still retaining competitive performance. We further show how our framework is generalizable to multiple time-series embeddings and neural data modalities. Beyond decoding, we interpret the pretrained PopT and fine-tuned models to show how they can be used to extract neuroscience insights from massive amounts of data. We release our code as well as a pretrained PopT to enable off-the-shelf improvements in multi-channel intracranial data decoding and interpretability.

arxiv情報

著者 Geeling Chau,Christopher Wang,Sabera Talukder,Vighnesh Subramaniam,Saraswati Soedarmadji,Yisong Yue,Boris Katz,Andrei Barbu
発行日 2024-10-09 17:07:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.NC | コメントする

A Gentle Introduction and Tutorial on Deep Generative Models in Transportation Research

要約

ディープ生成モデル (DGM) は近年急速に進歩しており、複雑なデータ分布を学習して合成データを生成できるため、さまざまな分野で不可欠なツールとなっています。
交通研究におけるそれらの重要性は、特に交通データの生成、予測、特徴抽出などのアプリケーションにおいてますます認識されています。
このペーパーでは、輸送分野でのアプリケーションに焦点を当てた、DGM の包括的な紹介とチュートリアルを提供します。
生成モデルの概要から始まり、基本モデルの詳細な説明、文献の体系的なレビュー、実装を支援する実践的なチュートリアル コードが続きます。
この論文では、現在の課題と機会についても説明し、交通研究においてこれらのモデルをどのように効果的に利用し、さらに発展させることができるかについて強調しています。
この論文は、交通研究における DGM の基礎知識から高度な応用まで研究者や実践者を導く貴重な参考資料として役立ちます。

要約(オリジナル)

Deep Generative Models (DGMs) have rapidly advanced in recent years, becoming essential tools in various fields due to their ability to learn complex data distributions and generate synthetic data. Their importance in transportation research is increasingly recognized, particularly for applications like traffic data generation, prediction, and feature extraction. This paper offers a comprehensive introduction and tutorial on DGMs, with a focus on their applications in transportation. It begins with an overview of generative models, followed by detailed explanations of fundamental models, a systematic review of the literature, and practical tutorial code to aid implementation. The paper also discusses current challenges and opportunities, highlighting how these models can be effectively utilized and further developed in transportation research. This paper serves as a valuable reference, guiding researchers and practitioners from foundational knowledge to advanced applications of DGMs in transportation research.

arxiv情報

著者 Seongjin Choi,Zhixiong Jin,Seungwoo Ham,Jiwon Kim,Lijun Sun
発行日 2024-10-09 17:11:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Towards xAI: Configuring RNN Weights using Domain Knowledge for MIMO Receive Processing

要約

ディープラーニングは、ワイヤレス通信の物理層に大きな影響を与えています。
MIMO 受信処理などのタスクで優れた経験的パフォーマンスを示したにもかかわらず、実証された優れたパフォーマンス向上の背後にある理由はほとんど不明のままです。
この研究では、信号処理原理を利用して、無線通信の物理層における Explainable AI (xAI) の分野を前進させます。
具体的には、リカレントニューラルネットワーク(RNN)内のフレームワークであるリザーバーコンピューティング(RC)を使用したMIMO-OFDM受信処理(シンボル検出など)のタスクに焦点を当てており、従来のMIMO検出器や他の学習ベースのMIMO検出器の両方よりも優れた性能を発揮します。
私たちの分析は、RC の対応する動作の信号処理ベースの第一原理の理解を提供します。
この基本的な理解に基づいて、MIMO-OFDM シンボル検出用にトレーニングされていない RNN の重みを直接設定することで、ワイヤレス システムのドメイン知識 (チャネル統計など) を基礎となる RNN の設計に体系的に組み込むことができます。
導入された RNN 重み構成は、広範なシミュレーションを通じて検証され、大幅なパフォーマンスの向上が実証されています。
これにより、MIMO-OFDM 受信処理における説明可能な RC ベースのアーキテクチャの基盤が確立され、NextG システムのニューラル ネットワークの設計にドメインの知識を組み込むためのロードマップが提供されます。

要約(オリジナル)

Deep learning is making a profound impact in the physical layer of wireless communications. Despite exhibiting outstanding empirical performance in tasks such as MIMO receive processing, the reasons behind the demonstrated superior performance improvement remain largely unclear. In this work, we advance the field of Explainable AI (xAI) in the physical layer of wireless communications utilizing signal processing principles. Specifically, we focus on the task of MIMO-OFDM receive processing (e.g., symbol detection) using reservoir computing (RC), a framework within recurrent neural networks (RNNs), which outperforms both conventional and other learning-based MIMO detectors. Our analysis provides a signal processing-based, first-principles understanding of the corresponding operation of the RC. Building on this fundamental understanding, we are able to systematically incorporate the domain knowledge of wireless systems (e.g., channel statistics) into the design of the underlying RNN by directly configuring the untrained RNN weights for MIMO-OFDM symbol detection. The introduced RNN weight configuration has been validated through extensive simulations demonstrating significant performance improvements. This establishes a foundation for explainable RC-based architectures in MIMO-OFDM receive processing and provides a roadmap for incorporating domain knowledge into the design of neural networks for NextG systems.

arxiv情報

著者 Shashank Jere,Lizhong Zheng,Karim Said,Lingjia Liu
発行日 2024-10-09 17:16:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP | コメントする

Let’s Ask GNN: Empowering Large Language Model for Graph In-Context Learning

要約

テキスト属性グラフ (TAG) は、複雑な現実世界のシステムをモデル化するために不可欠ですが、TAG に大規模言語モデル (LLM) を活用すると、逐次的なテキスト処理とグラフ構造化されたデータの間のギャップにより、独特の課題が生じます。
インコンテキスト学習 (ICL) を活用してグラフ データとタスク固有の情報を LLM に統合することで、このギャップを埋める新しいアプローチである AskGNN を紹介します。
AskGNN は、グラフ ニューラル ネットワーク (GNN) を利用した構造強化型取得機能を採用して、複雑なグラフ構造とその監視信号を組み込んで、グラフ全体でラベル付きノードを選択します。
私たちの取得学習アルゴリズムは、グラフ上の LLM パフォーマンスを最大化するサンプル ノードを選択するように取得者を最適化します。
3 つのタスクと 7 つの LLM にわたる実験では、グラフ タスクのパフォーマンスにおける AskGNN の優れた有効性が実証され、大規模な微調整を行わずに LLM をグラフ構造データに適用するための新しい道が開かれます。

要約(オリジナル)

Textual Attributed Graphs (TAGs) are crucial for modeling complex real-world systems, yet leveraging large language models (LLMs) for TAGs presents unique challenges due to the gap between sequential text processing and graph-structured data. We introduce AskGNN, a novel approach that bridges this gap by leveraging In-Context Learning (ICL) to integrate graph data and task-specific information into LLMs. AskGNN employs a Graph Neural Network (GNN)-powered structure-enhanced retriever to select labeled nodes across graphs, incorporating complex graph structures and their supervision signals. Our learning-to-retrieve algorithm optimizes the retriever to select example nodes that maximize LLM performance on graph. Experiments across three tasks and seven LLMs demonstrate AskGNN’s superior effectiveness in graph task performance, opening new avenues for applying LLMs to graph-structured data without extensive fine-tuning.

arxiv情報

著者 Zhengyu Hu,Yichuan Li,Zhengyu Chen,Jingang Wang,Han Liu,Kyumin Lee,Kaize Ding
発行日 2024-10-09 17:19:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Collusion Detection with Graph Neural Networks

要約

共謀は、企業が密かに協力して不正行為を行う複雑な現象です。
この論文では、ニューラル ネットワーク (NN) とグラフ ニューラル ネットワーク (GNN) を使用して、さまざまな国内市場における共謀パターンを検出および予測するための革新的な方法論を紹介します。
GNN は、共謀や他の多くの経済問題に存在する固有のネットワーク構造を利用できるため、このタスクに特に適しています。
私たちのアプローチは 2 つのフェーズで構成されています。フェーズ I では、日本、米国、スイスの 2 つの地域、イタリア、ブラジルの個別の市場データセットに基づいてモデルを開発およびトレーニングし、単一市場での共謀の予測に焦点を当てます。
フェーズ II では、トレーニング データが利用できない市場での共謀を検出できる転移学習アプローチを採用し、ゼロショット学習を通じてモデルの適用可能性を拡張します。
このフェーズには、他の国や地域の未確認のデータセットに対するモデルのパフォーマンスを評価するために、配布外 (OOD) 一般化も組み込まれています。
私たちの実証研究では、GNN が複雑な共謀パターンの検出において NN よりも優れていることを示しています。
この研究は、共謀の防止と検出手法の最適化に関する進行中の議論に貢献し、市場の公平性と経済的福祉を強化するための経済的応用における NN と GNN の使用に関する貴重な指針を提供します。

要約(オリジナル)

Collusion is a complex phenomenon in which companies secretly collaborate to engage in fraudulent practices. This paper presents an innovative methodology for detecting and predicting collusion patterns in different national markets using neural networks (NNs) and graph neural networks (GNNs). GNNs are particularly well suited to this task because they can exploit the inherent network structures present in collusion and many other economic problems. Our approach consists of two phases: In Phase I, we develop and train models on individual market datasets from Japan, the United States, two regions in Switzerland, Italy, and Brazil, focusing on predicting collusion in single markets. In Phase II, we extend the models’ applicability through zero-shot learning, employing a transfer learning approach that can detect collusion in markets in which training data is unavailable. This phase also incorporates out-of-distribution (OOD) generalization to evaluate the models’ performance on unseen datasets from other countries and regions. In our empirical study, we show that GNNs outperform NNs in detecting complex collusive patterns. This research contributes to the ongoing discourse on preventing collusion and optimizing detection methodologies, providing valuable guidance on the use of NNs and GNNs in economic applications to enhance market fairness and economic welfare.

arxiv情報

著者 Lucas Gomes,Jannis Kueck,Mara Mattes,Martin Spindler,Alexey Zaytsev
発行日 2024-10-09 17:31:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.EM, stat.ML | コメントする