LML: Language Model Learning a Dataset for Data-Augmented Prediction

要約

このペーパーでは、通常、機械学習 (ML) モデルを使用して処理される分類タスクに大規模言語モデル (LLM) を使用する新しいアプローチを紹介します。
データ クリーニングと特徴エンジニアリングに大きく依存する ML モデルとは異なり、この方法では LLM を使用してプロセスを合理化します。
この論文は、「データ拡張予測 (DAP)」と呼ばれる新しい方法を活用した「言語モデル学習 (LML)」と呼ばれる新しい概念を提案します。
分類は、人間が手動でデータを探索して理解し、データを参照として使用して分類を決定するのと同様の方法を使用して LLM によって実行されます。
トレーニング データが要約および評価されて、各ラベルの分類に最もつながる特徴が決定されます。
DAP のプロセスでは、システムはデータ概要を使用してクエリを自動的に作成します。このクエリは、データセットから関連する行を取得するために使用されます。
分類は、データの概要と関連する行を使用して LLM によって生成され、複雑なデータであっても十分な精度が保証されます。
DAP でのデータ概要および同様のデータの使用により、コンテキストを認識した意思決定が保証されます。
提案された方法では、プロンプト内で「説明可能な機械学習モデルとして機能する」という言葉を使用して、ユーザーが各予測の背後にあるロジックを確認できるようにすることで、予測の解釈可能性を高めます。
一部のテスト ケースでは、システムは 90% を超える精度を記録し、システムの有効性と、さまざまなシナリオで従来の ML モデルを上回る可能性があることが証明されました。
コードは https://github.com/Pro-GenAI/LML-DAP で入手できます。

要約(オリジナル)

This paper introduces a new approach to using Large Language Models (LLMs) for classification tasks, which are typically handled using Machine Learning (ML) models. Unlike ML models that rely heavily on data cleaning and feature engineering, this method streamlines the process using LLMs. This paper proposes a new concept called ‘Language Model Learning (LML)’ powered by a new method called ‘Data-Augmented Prediction (DAP)’. The classification is performed by LLMs using a method similar to humans manually exploring and understanding the data and deciding classifications using data as a reference. Training data is summarized and evaluated to determine the features that lead to the classification of each label the most. In the process of DAP, the system uses the data summary to automatically create a query, which is used to retrieve relevant rows from the dataset. A classification is generated by the LLM using data summary and relevant rows, ensuring satisfactory accuracy even with complex data. Usage of data summary and similar data in DAP ensures context-aware decision-making. The proposed method uses the words ‘Act as an Explainable Machine Learning Model’ in the prompt to enhance the interpretability of the predictions by allowing users to review the logic behind each prediction. In some test cases, the system scored an accuracy above 90%, proving the effectiveness of the system and its potential to outperform conventional ML models in various scenarios. The code is available at https://github.com/Pro-GenAI/LML-DAP

arxiv情報

著者 Praneeth Vadlapati
発行日 2024-09-27 17:58:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク