Exploring Large Language Models for Feature Selection: A Data-centric Perspective

要約

大規模言語モデル (LLM) の急速な進歩は、その卓越した少数ショットおよびゼロショット学習機能を活用して、さまざまな分野に大きな影響を与えてきました。
この研究では、LLM ベースの特徴選択方法をデータ中心の観点から調査し、理解することを目的としています。
まず、LLM を使用した既存の特徴選択方法を 2 つのグループに分類します。1 つは統計的推論を行うためにサンプルの数値を必要とするデータ駆動型の特徴選択、もう 1 つは記述的なコンテキストを使用して意味的な関連付けを行うために LLM の事前知識を利用するテキストベースの特徴選択です。
私たちは、さまざまなサイズの LLM (GPT-4、ChatGPT、LLaMA-2 など) を使用して、分類タスクと回帰タスクの両方で実験を実施します。
私たちの調査結果は、テキストベースの特徴選択方法の有効性と堅牢性を強調し、実際の医療アプリケーションを使用してその可能性を示しています。
また、機能選択に LLM を採用する際の課題と将来の機会についても説明し、この新興分野でのさらなる研究開発のための洞察を提供します。

要約(オリジナル)

The rapid advancement of Large Language Models (LLMs) has significantly influenced various domains, leveraging their exceptional few-shot and zero-shot learning capabilities. In this work, we aim to explore and understand the LLMs-based feature selection methods from a data-centric perspective. We begin by categorizing existing feature selection methods with LLMs into two groups: data-driven feature selection which requires numerical values of samples to do statistical inference and text-based feature selection which utilizes prior knowledge of LLMs to do semantical associations using descriptive context. We conduct experiments in both classification and regression tasks with LLMs in various sizes (e.g., GPT-4, ChatGPT and LLaMA-2). Our findings emphasize the effectiveness and robustness of text-based feature selection methods and showcase their potentials using a real-world medical application. We also discuss the challenges and future opportunities in employing LLMs for feature selection, offering insights for further research and development in this emerging field.

arxiv情報

著者 Dawei Li,Zhen Tan,Huan Liu
発行日 2024-10-23 17:01:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク