要約
表形式データの実世界のアプリケーションの多くには、履歴イベントを使用して新しいイベントの特性を予測することが含まれます。たとえば、クレジット カード取引が不正であるかどうかや、小売プラットフォームで顧客が製品にどのような評価を割り当てるかなどです。
イベント予測に対する既存のアプローチには、時間認識の位置埋め込み、学習された行およびフィールドのエンコーディング、クラスの不均衡に対処するためのオーバーサンプリング手法など、コストが高く脆弱でアプリケーションに依存する手法が含まれています。
さらに、これらのアプローチは多くの場合、特定のユースケースを想定しています。たとえば、すべての歴史的イベントのラベルがわかっている場合や、データの特徴自体ではなく事前に指定されたラベルのみを予測する場合などです。
この研究では、基本的な位置埋め込みと因果的言語モデリング目標を備えた標準的な自己回帰 LLM スタイルのトランスフォーマーを使用した、シンプルだが柔軟なベースラインを提案します。
私たちのベースラインは、一般的なデータセット全体で既存のアプローチを上回っており、さまざまなユースケースに採用できます。
同じモデルでラベルの予測、欠損値の代入、イベント シーケンスのモデル化ができることを示します。
要約(オリジナル)
Many real-world applications of tabular data involve using historic events to predict properties of new ones, for example whether a credit card transaction is fraudulent or what rating a customer will assign a product on a retail platform. Existing approaches to event prediction include costly, brittle, and application-dependent techniques such as time-aware positional embeddings, learned row and field encodings, and oversampling methods for addressing class imbalance. Moreover, these approaches often assume specific use-cases, for example that we know the labels of all historic events or that we only predict a pre-specified label and not the data’s features themselves. In this work, we propose a simple but flexible baseline using standard autoregressive LLM-style transformers with elementary positional embeddings and a causal language modeling objective. Our baseline outperforms existing approaches across popular datasets and can be employed for various use-cases. We demonstrate that the same model can predict labels, impute missing values, or model event sequences.
arxiv情報
著者 | Alex Stein,Samuel Sharpe,Doron Bergman,Senthil Kumar,Bayan Bruss,John Dickerson,Tom Goldstein,Micah Goldblum |
発行日 | 2024-10-14 15:59:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google