要約
特に業界規模のデータセットに対して、表形式データをモデリングするために設計されたトランスフォーマーベースのモデルの比較分析を実行します。
以前の研究では、小規模な公開データセットまたは合成データセットで有望な結果が示されましたが、その有効性は大規模な業界規模のデータセットには拡張されませんでした。
特定された課題には、高次元データの処理、カテゴリおよび数値特徴の効率的な前処理の必要性、および実質的な計算要件への対応が含まれます。
特定された課題を克服するために、この研究では、合成データセットと American Express のデフォルト予測 Kaggle データセット (2022) の両方を使用して、さまざまなトランスフォーマーベースのモデルの広範な調査を実施しています。
この論文では、最適なデータ前処理に関する重要な洞察を提示し、事前トレーニングと直接教師あり学習方法を比較し、カテゴリ特徴と数値特徴を管理する戦略について議論し、計算リソースとパフォーマンスの間のトレードオフを強調しています。
この研究は、時間的な金融データ モデリングに焦点を当てており、スケーラビリティを重視して、現実世界のシナリオにおける変圧器ベースのモデルの体系的な開発と展開を促進することを目的としています。
要約(オリジナル)
We perform a comparative analysis of transformer-based models designed for modeling tabular data, specifically on an industry-scale dataset. While earlier studies demonstrated promising outcomes on smaller public or synthetic datasets, the effectiveness did not extend to larger industry-scale datasets. The challenges identified include handling high-dimensional data, the necessity for efficient pre-processing of categorical and numerical features, and addressing substantial computational requirements. To overcome the identified challenges, the study conducts an extensive examination of various transformer-based models using both synthetic datasets and the default prediction Kaggle dataset (2022) from American Express. The paper presents crucial insights into optimal data pre-processing, compares pre-training and direct supervised learning methods, discusses strategies for managing categorical and numerical features, and highlights trade-offs between computational resources and performance. Focusing on temporal financial data modeling, the research aims to facilitate the systematic development and deployment of transformer-based models in real-world scenarios, emphasizing scalability.
arxiv情報
著者 | Usneek Singh,Piyush Arora,Shamika Ganesan,Mohit Kumar,Siddhant Kulkarni,Salil R. Joshi |
発行日 | 2023-11-24 08:16:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google