要約
この作業は、LLMSに基づくテキストの分類に勾配ベースのメンバーシップ推論テスト(GMINT)を適応し、研究します。
Mintは、与えられたデータが機械学習モデルのトレーニングに使用されているかどうかを判断するための一般的なアプローチであり、この作業は、自然言語処理のドメインへの応用に焦点を当てています。
Gradientベースの分析を使用して、Mintモデルは、言語モデルトレーニングフェーズ中に特定のデータサンプルが含まれているかどうかを識別し、機械学習におけるデータプライバシーに関する懸念の高まりに対処します。
この方法は、テキスト分類タスクに焦点を当てた250万を超える文を構成する7つの変圧器ベースのモデルと6つのデータセットで評価されました。
実験結果は、データサイズとモデルアーキテクチャに応じて、85%から99%のAUCスコアを達成し、ミントの堅牢性を示しています。
これらの調査結果は、機械学習モデルを監査するためのスケーラブルで信頼性の高いツールとしての潜在性を強調し、透明性を確保し、機密データの保護、AI/NLPテクノロジーの展開における倫理的コンプライアンスを促進します。
要約(オリジナル)
This work adapts and studies the gradient-based Membership Inference Test (gMINT) to the classification of text based on LLMs. MINT is a general approach intended to determine if given data was used for training machine learning models, and this work focuses on its application to the domain of Natural Language Processing. Using gradient-based analysis, the MINT model identifies whether particular data samples were included during the language model training phase, addressing growing concerns about data privacy in machine learning. The method was evaluated in seven Transformer-based models and six datasets comprising over 2.5 million sentences, focusing on text classification tasks. Experimental results demonstrate MINTs robustness, achieving AUC scores between 85% and 99%, depending on data size and model architecture. These findings highlight MINTs potential as a scalable and reliable tool for auditing machine learning models, ensuring transparency, safeguarding sensitive data, and fostering ethical compliance in the deployment of AI/NLP technologies.
arxiv情報
著者 | Gonzalo Mancera,Daniel de Alcala,Julian Fierrez,Ruben Tolosana,Aythami Morales |
発行日 | 2025-03-10 14:32:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google