TabR: Tabular Deep Learning Meets Nearest Neighbors in 2023

要約

表形式のデータの問題 (分類、回帰など) に対するディープ ラーニング (DL) モデルは、現在、研究者からますます注目を集めています。
ただし、最近の取り組みにもかかわらず、勾配ブースト決定ツリー (GBDT) に基づく非 DL アルゴリズムは、依然としてこれらの問題に対する強力な頼りになるソリューションです。
表形式 DL の地位を向上させることを目的とした研究の方向性の 1 つは、いわゆる検索拡張モデルの設計に関係しています。
ターゲット オブジェクトの場合、このようなモデルは利用可能なトレーニング データから他のオブジェクト (最近傍オブジェクトなど) を取得し、その特徴とラベルを使用してより適切な予測を行います。
この研究では、TabR を紹介します。これは、本質的に、中央にカスタムの k-最近傍コンポーネントのようなコンポーネントを備えたフィードフォワード ネットワークです。
最大数百万のオブジェクトのデータセットを含む一連の公開ベンチマークにおいて、TabR は表形式 DL にとって大きな前進を示しています。TabR は表形式 DL モデルの中で最高の平均パフォーマンスを示し、いくつかのデータセットで新しい最先端となり、
最近提案された「GBDT に優しい」ベンチマークでも、GBDT モデルを上回るパフォーマンスを示します (図 1 を参照)。
TabR を強化する重要な発見と技術的詳細の中で、主なものは、最近傍を検索し、そこから貴重な信号を抽出する役割を担うアテンションのようなメカニズムにあります。
はるかに高いパフォーマンスに加えて、TabR はシンプルで、以前の検索ベースの表形式 DL モデルと比較して大幅に効率的です。

要約(オリジナル)

Deep learning (DL) models for tabular data problems (e.g. classification, regression) are currently receiving increasingly more attention from researchers. However, despite the recent efforts, the non-DL algorithms based on gradient-boosted decision trees (GBDT) remain a strong go-to solution for these problems. One of the research directions aimed at improving the position of tabular DL involves designing so-called retrieval-augmented models. For a target object, such models retrieve other objects (e.g. the nearest neighbors) from the available training data and use their features and labels to make a better prediction. In this work, we present TabR — essentially, a feed-forward network with a custom k-Nearest-Neighbors-like component in the middle. On a set of public benchmarks with datasets up to several million objects, TabR marks a big step forward for tabular DL: it demonstrates the best average performance among tabular DL models, becomes the new state-of-the-art on several datasets, and even outperforms GBDT models on the recently proposed ‘GBDT-friendly’ benchmark (see Figure 1). Among the important findings and technical details powering TabR, the main ones lie in the attention-like mechanism that is responsible for retrieving the nearest neighbors and extracting valuable signal from them. In addition to the much higher performance, TabR is simple and significantly more efficient compared to prior retrieval-based tabular DL models.

arxiv情報

著者 Yury Gorishniy,Ivan Rubachev,Nikolay Kartashev,Daniil Shlenskii,Akim Kotelnikov,Artem Babenko
発行日 2023-10-26 17:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク