TabR: Unlocking the Power of Retrieval-Augmented Tabular Deep Learning

要約

表形式のデータ問題に対するディープラーニング (DL) モデルはますます注目を集めていますが、勾配ブースト決定木 (GBDT) に基づくアルゴリズムは依然として有力なソリューションです。
自然言語処理やコンピューター ビジョンなど、他の分野における最近の傾向に従って、いくつかの検索拡張表形式 DL モデルが最近提案されています。
特定のターゲット オブジェクトについて、検索ベースのモデルは、利用可能な (トレーニング) データから最近傍オブジェクトなどの他の関連オブジェクトを取得し、その特徴やラベルを使用してより適切な予測を行います。
ただし、既存の検索ベースの表形式 DL ソリューションでは、適切に調整された単純な検索不要のベースラインに比べて、メリットがあったとしてもわずかしかないことを示します。
したがって、検索ベースのアプローチが表形式 DL にとって価値のある方向であるかどうかは不明のままです。
この作品では、この質問に対して強く前向きな答えを示しています。
まず、多くの (表形式) 検索ベースのモデルと同様のアテンションに似た検索コンポーネントを使用して、単純なフィードフォワード アーキテクチャを段階的に強化することから始めます。
次に、表形式データの問題のパフォーマンスに多大な影響を与えることが判明したが、以前の研究では調査されていなかったアテンション メカニズムの詳細をいくつか取り上げます。
その結果、私たちは TabR を設計しました。これは、一連の公開ベンチマークで表形式 DL モデルの中で最高の平均パフォーマンスを示し、いくつかのデータセットで新しい最先端となる、単純な検索ベースの表形式 DL モデルです。
さらに、最近提案された「GBDT フレンドリー」ベンチマークでも GBDT モデルを上回っています (最初の図を参照)。

要約(オリジナル)

Deep learning (DL) models for tabular data problems are receiving increasingly more attention, while the algorithms based on gradient-boosted decision trees (GBDT) remain a strong go-to solution. Following the recent trends in other domains, such as natural language processing and computer vision, several retrieval-augmented tabular DL models have been recently proposed. For a given target object, a retrieval-based model retrieves other relevant objects, such as the nearest neighbors, from the available (training) data and uses their features or even labels to make a better prediction. However, we show that the existing retrieval-based tabular DL solutions provide only minor, if any, benefits over the properly tuned simple retrieval-free baselines. Thus, it remains unclear whether the retrieval-based approach is a worthy direction for tabular DL. In this work, we give a strong positive answer to this question. We start by incrementally augmenting a simple feed-forward architecture with an attention-like retrieval component similar to those of many (tabular) retrieval-based models. Then, we highlight several details of the attention mechanism that turn out to have a massive impact on the performance on tabular data problems, but that were not explored in prior work. As a result, we design TabR — a simple retrieval-based tabular DL model which, on a set of public benchmarks, demonstrates the best average performance among tabular DL models, becomes the new state-of-the-art on several datasets, and even outperforms GBDT models on the recently proposed “GBDT-friendly” benchmark (see the first figure).

arxiv情報

著者 Yury Gorishniy,Ivan Rubachev,Nikolay Kartashev,Daniil Shlenskii,Akim Kotelnikov,Artem Babenko
発行日 2023-07-26 17:58:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク