GenCLS++: Pushing the Boundaries of Generative Classification in LLMs Through Comprehensive SFT and RL Studies Across Diverse Datasets

要約

機械学習の基本的なタスクとして、テキスト分類は多くの分野で重要な役割を果たします。
特に強化学習(RL)を通じて、大規模な言語モデル(LLMS)の迅速なスケーリングにより、より能力のある識別器の必要性が高まっています。
その結果、分類の進歩は、LLMSの全体的な機能を強化するためにますます重要になっています。
従来の識別方法は、テキストをラベルにマッピングしますが、LLMの本質的な生成強度を見落としています。
生成分類は、モデルにラベルを直接出力するように促すことにより、これに対処します。
ただし、既存の研究は依然として単純なSFTだけに依存しており、トレーニングと推論プロンプトの間の相互作用をめったに調査することはめったになく、1つのフレームワークで生成テキスト分類子と統一されたSFT、RL、および推論時間プロンプトのRLを体系的に活用していません。
このギャップは、SFTとRLを共同で最適化しながら5つの高レベルの戦略ディメンションの学習バリアント、カテゴリ定義、明示的な不確実性ラベル、意味的に無関係な数値ラベル、トレーニングと困惑を妨げるトレーニングとinの両方をdecodingすることを体系的に調査するフレームワークであるGENCLS ++に橋渡しします。
SFT「ポリシーウォームアップ」の後、RLを単純なルールベースの報酬で適用し、かなりの余分な利益をもたらします。
7つのデータセットで、GENCLS ++は、ナイーブSFTベースラインと比較して3.46%の平均精度改善を達成します。
パブリックデータセットでは、この改善は4.00%に上昇します。
特に、明示的な思考プロセスの恩恵を受ける合理的な集中タスクとは異なり、分類タスクはそのような推論ステップなしでパフォーマンスが向上していることがわかります。
明示的な推論の役割に関するこれらの洞察は、将来のLLMアプリケーションに貴重なガイダンスを提供します。

要約(オリジナル)

As a fundamental task in machine learning, text classification plays a crucial role in many areas. With the rapid scaling of Large Language Models (LLMs), particularly through reinforcement learning (RL), there is a growing need for more capable discriminators. Consequently, advances in classification are becoming increasingly vital for enhancing the overall capabilities of LLMs. Traditional discriminative methods map text to labels but overlook LLMs’ intrinsic generative strengths. Generative classification addresses this by prompting the model to directly output labels. However, existing studies still rely on simple SFT alone, seldom probing the interplay between training and inference prompts, and no work has systematically leveraged RL for generative text classifiers and unified SFT, RL, and inference-time prompting in one framework. We bridge this gap with GenCLS++, a framework that jointly optimizes SFT and RL while systematically exploring five high-level strategy dimensions-in-context learning variants, category definitions, explicit uncertainty labels, semantically irrelevant numeric labels, and perplexity-based decoding-during both training and inference. After an SFT ‘policy warm-up,’ we apply RL with a simple rule-based reward, yielding sizable extra gains. Across seven datasets, GenCLS++ achieves an average accuracy improvement of 3.46% relative to the naive SFT baseline; on public datasets, this improvement rises to 4.00%. Notably, unlike reasoning-intensive tasks that benefit from explicit thinking processes, we find that classification tasks perform better without such reasoning steps. These insights into the role of explicit reasoning provide valuable guidance for future LLM applications.

arxiv情報

著者 Mingqian He,Fei Zhao,Chonggang Lu,Ziyan Liu,Yue Wang,Haofu Qian
発行日 2025-04-28 15:30:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク