Pushing the boundary on Natural Language Inference

要約

自然言語推論(NLI)は、事実チェック、質問の回答、情報の検索におけるアプリケーションを使用した自然言語理解の中心的なタスクです。
その重要性にもかかわらず、現在のNLIシステムは、注釈のアーティファクトとバイアスを含むことが多いデータセットを使用した監視された学習に大きく依存しており、一般化と現実世界の適用性を制限しています。
この作業では、NLIでのチェーン思考(COT)学習のためのグループ相対ポリシー最適化(GRPO)を使用した強化学習ベースのアプローチを適用し、ラベル付きの理論的根拠の必要性を排除し、ANLIなどのより挑戦的なデータセットでこのタイプのトレーニングを可能にします。
パラメーター効率の高い技術(LORAおよびQlora)を使用して、7B、14B、および32B言語モデルを微調整し、標準および敵対的なNLIベンチマーク全体で強力なパフォーマンスを示します。
私たちの32B AWQ定量化されたモデルは、11の敵対的なセットのうち7つの$ \ unicode {x2013} $または22GBのメモリフットプリント内の複製$ \ unicode {x2013} $を考慮して、すべての敵対的なセットのうち7つで最先端の結果を上回ります。
この作業は、推論の品質を犠牲にすることなく、堅牢なNLIシステムを構築するためのスケーラブルで実用的なフレームワークを提供します。

要約(オリジナル)

Natural Language Inference (NLI) is a central task in natural language understanding with applications in fact-checking, question answering, and information retrieval. Despite its importance, current NLI systems heavily rely on supervised learning with datasets that often contain annotation artifacts and biases, limiting generalization and real-world applicability. In this work, we apply a reinforcement learning-based approach using Group Relative Policy Optimization (GRPO) for Chain-of-Thought (CoT) learning in NLI, eliminating the need for labeled rationales and enabling this type of training on more challenging datasets such as ANLI. We fine-tune 7B, 14B, and 32B language models using parameter-efficient techniques (LoRA and QLoRA), demonstrating strong performance across standard and adversarial NLI benchmarks. Our 32B AWQ-quantized model surpasses state-of-the-art results on 7 out of 11 adversarial sets$\unicode{x2013}$or on all of them considering our replication$\unicode{x2013}$within a 22GB memory footprint, showing that robust reasoning can be retained under aggressive quantization. This work provides a scalable and practical framework for building robust NLI systems without sacrificing inference quality.

arxiv情報

著者 Pablo Miralles-González,Javier Huertas-Tato,Alejandro Martín,David Camacho
発行日 2025-04-25 14:20:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク