Enhancing adversarial robustness in Natural Language Inference using explanations

要約

最先端の Transformer ベースのモデルの急増により、間違いなく NLP モデルのパフォーマンスの限界が押し上げられ、さまざまなタスクで優れた性能を発揮します。
一般的な適切なデータセットでトレーニングされたモデルは敵対的な攻撃を受けやすく、微妙な入力介入によってモデルが誤解される可能性があるため、私たちは自然言語推論 (NLI) というまだ解明されていないタスクにスポットライトを当てています。
この研究では、広範な実験を通じて、モデルに依存しない防御戦略としての自然言語説明の使用を検証します。前提仮説の入力ではなく、説明に基づいて分類器を微調整することによってのみ、さまざまな敵対的攻撃に対する堅牢性が達成されます。
説明のないベースライン。
さらに、生成された説明の意味的妥当性をテストする標準的な戦略がないため、堅牢な NLI モデルの代用として機能するために、広く使用されている言語生成メトリクスと人間の知覚との相関関係を研究します。
私たちのアプローチはリソース効率が高く、計算上の大きな制限がなく再現可能です。

要約(オリジナル)

The surge of state-of-the-art Transformer-based models has undoubtedly pushed the limits of NLP model performance, excelling in a variety of tasks. We cast the spotlight on the underexplored task of Natural Language Inference (NLI), since models trained on popular well-suited datasets are susceptible to adversarial attacks, allowing subtle input interventions to mislead the model. In this work, we validate the usage of natural language explanation as a model-agnostic defence strategy through extensive experimentation: only by fine-tuning a classifier on the explanation rather than premise-hypothesis inputs, robustness under various adversarial attacks is achieved in comparison to explanation-free baselines. Moreover, since there is no standard strategy of testing the semantic validity of the generated explanations, we research the correlation of widely used language generation metrics with human perception, in order for them to serve as a proxy towards robust NLI models. Our approach is resource-efficient and reproducible without significant computational limitations.

arxiv情報

著者 Alexandros Koulakos,Maria Lymperaiou,Giorgos Filandrianos,Giorgos Stamou
発行日 2024-09-11 17:09:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク