Teaching a Language Model to Distinguish Between Similar Details using a Small Adversarial Training Set

要約

言語モデルは、NLI などの自然言語タスクでは高い精度を達成できますが、手動で作成された敵対的な例ではパフォーマンスが低下します。
手動で作成した敵対的テスト セット上で、スタンフォード自然言語推論 (SNLI) コーパスでトレーニングされた言語モデルのパフォーマンスを調査します。
次に、言語モデルがデータ内の類似した単語やフレーズを区別できるように学習できるように設計された、手動で作成された小規模な敵対的トレーニング セットでモデルを微調整することで、モデルのパフォーマンスを向上させます。
元の NLI タスクでは依然として良好なパフォーマンスを維持しながら、敵対的テスト セットでは精度が向上している (+ 13%) ことがわかります。
また、SNLI テスト セット内の最も類似した矛盾 (コサイン類似度で判断) の精度が 91.2% から 92.9% に向上したことも示しています。

要約(オリジナル)

Language models can achieve high accuracy on natural language tasks such as NLI, but performance suffers on manually created adversarial examples. We investigate the performance of a language model trained on the Stanford Natural Language Inference (SNLI) corpus on a manually created adversarial test set. We then improve the model’s performance by fine tuning the model on a small, manually created adversarial training set, designed to help the language model to learn to differentiate between similar words and phrases in the data. We show an increase in accuracy on the adversarial test set (+ 13%) while still maintaining good performance on the original NLI task. We also show an increase in accuracy from 91.2% to 92.9% on the most similar contradictions in the SNLI test set (as judged by cosine similarity).

arxiv情報

著者 Chris Achard
発行日 2024-10-30 15:27:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク