LML-DAP: Language Model Learning a Dataset for Data-Augmented Prediction

要約

分類タスクは通常、機械学習(ML)モデルを用いて処理されるが、精度と解釈可能性のバランスがとれていない。本稿では、説明可能な方法で分類タスクに大規模言語モデル(LLM)を使用する新しいアプローチを紹介する。データクリーニングと特徴量エンジニアリングに大きく依存するMLモデルとは異なり、この手法はLLMを用いてプロセスを効率化する。本論文では、「データ拡張予測(DAP)」と呼ばれる新しい手法により、「言語モデル学習(LML)」と呼ばれる新しい概念を提案する。LLMは、人間が手作業でデータを探索・理解し、データを参照しながら分類を決定するのと同様の方法を用いて分類を行う。LMLのプロセスでは、データセットを要約して評価し、各ラベルの分類に最もつながる特徴を決定する。DAPのプロセスでは、システムはデータの要約とテストデータセットの行を使用してクエリを自動生成し、このクエリを使用してデータセットから関連する行を検索する。LLMはデータの要約と関連する行を使用して分類を生成し、文脈を考慮した意思決定により複雑なデータでも十分な精度を確保する。LMLとDAPは新しいアプリケーションの可能性を解き放つ。提案された方法では、プロンプトに「説明可能な機械学習モデルとして機能する」という言葉を使用し、各予測の背後にあるロジックをユーザーが確認できるようにすることで、予測の解釈可能性を高めている。いくつかのテストケースにおいて、システムは90%を超える精度を獲得し、システムの有効性と、様々なシナリオにおいて従来のMLモデルを凌駕する可能性を証明した。コードはhttps://github.com/Pro-GenAI/LML-DAP

要約(オリジナル)

Classification tasks are typically handled using Machine Learning (ML) models, which lack a balance between accuracy and interpretability. This paper introduces a new approach to using Large Language Models (LLMs) for classification tasks in an explainable way. Unlike ML models that rely heavily on data cleaning and feature engineering, this method streamlines the process using LLMs. This paper proposes a new concept called ‘Language Model Learning (LML)’ powered by a new method called ‘Data-Augmented Prediction (DAP)’. The classification is performed by LLMs using a method similar to humans manually exploring and understanding the data and deciding classifications using data as a reference. In the LML process, a dataset is summarized and evaluated to determine the features that lead to the classification of each label the most. In the process of DAP, the system uses the data summary and a row of the testing dataset to automatically generate a query, which is used to retrieve relevant rows from the dataset. A classification is generated by the LLM using data summary and relevant rows, ensuring satisfactory accuracy even with complex data using context-aware decision-making. LML and DAP unlock the possibilities of new applications. The proposed method uses the words ‘Act as an Explainable Machine Learning Model’ in the prompt to enhance the interpretability of the predictions by allowing users to review the logic behind each prediction. In some test cases, the system scored an accuracy above 90%, proving the effectiveness of the system and its potential to outperform conventional ML models in various scenarios. The code is available at https://github.com/Pro-GenAI/LML-DAP

arxiv情報

著者 Praneeth Vadlapati
発行日 2024-10-03 17:57:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク