要約
表形式のデータは、機械学習タスクをさまざまな業界に適用するために不可欠です。
ただし、従来のデータ処理方法では、テーブルで利用可能なすべての情報が完全には活用されず、列ヘッダーの説明などの重要なコンテキスト情報が無視されます。
さらに、データを表形式に前処理することが、モデル開発において依然として労働集約的なボトルネックとなる可能性があります。
この研究では、表形式のデータ構造からコンテキスト情報を抽出する処理および特徴抽出フレームワークである TabText を紹介します。
TabText は、コンテンツを言語に変換し、事前にトレーニングされた大規模言語モデル (LLM) を利用することで、処理の問題に対処します。
私たちは、患者の退院、ICU 入室、死亡率に至る 9 つの医療予測タスクに関するフレームワークを評価します。
1) TabText フレームワークを適用すると、最小限のデータ前処理で高性能でシンプルな機械学習ベースライン モデルを生成できること、2) 前処理された表形式データを TabText 表現で強化することで、平均および最悪の場合の AUC パフォーマンスが向上することを示します。
標準的な機械学習モデルの 6% も増加しました。
要約(オリジナル)
Tabular data is essential for applying machine learning tasks across various industries. However, traditional data processing methods do not fully utilize all the information available in the tables, ignoring important contextual information such as column header descriptions. In addition, pre-processing data into a tabular format can remain a labor-intensive bottleneck in model development. This work introduces TabText, a processing and feature extraction framework that extracts contextual information from tabular data structures. TabText addresses processing difficulties by converting the content into language and utilizing pre-trained large language models (LLMs). We evaluate our framework on nine healthcare prediction tasks ranging from patient discharge, ICU admission, and mortality. We show that 1) applying our TabText framework enables the generation of high-performing and simple machine learning baseline models with minimal data pre-processing, and 2) augmenting pre-processed tabular data with TabText representations improves the average and worst-case AUC performance of standard machine learning models by as much as 6%.
arxiv情報
著者 | Kimberly Villalobos Carballo,Liangyuan Na,Yu Ma,Léonard Boussioux,Cynthia Zeng,Luis R. Soenksen,Dimitris Bertsimas |
発行日 | 2023-07-18 13:55:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google