ANTONIO: Towards a Systematic Method of Generating NLP Benchmarks for Verification

要約

自然言語処理 (NLP) で使用される機械学習モデルの検証は、難しい問題であることが知られています。
特に、コンピューター ビジョンやその他の数値データセットには機能する多くの既知のニューラル ネットワーク検証方法は、NLP には機能しません。
ここでは、この問題の根底にある技術的な理由を検討します。
この分析に基づいて、抽象的な解釈に基づく既知の検証方法に適用できるように NLP データセットとモデルを準備するための実用的な方法とヒューリスティックを提案します。
これらのメソッドは、ニューラル ネットワーク検証器 ERAN および Marabou にリンクする ANTONIO という Python ライブラリとして実装されます。
法的に重要な NLP アプリケーションを検証するためのベンチマークとして提案されている NLP データセット R-U-A-Robot を使用してツールの評価を実行します。
私たちは、この研究がその一般的な適用可能性のおかげで、NLP 検証問題をニューラル ネットワーク検証コンテストに組み込む新たな可能性を開き、このコミュニティ内で NLP 問題を普及させることを期待しています。

要約(オリジナル)

Verification of machine learning models used in Natural Language Processing (NLP) is known to be a hard problem. In particular, many known neural network verification methods that work for computer vision and other numeric datasets do not work for NLP. Here, we study technical reasons that underlie this problem. Based on this analysis, we propose practical methods and heuristics for preparing NLP datasets and models in a way that renders them amenable to known verification methods based on abstract interpretation. We implement these methods as a Python library called ANTONIO that links to the neural network verifiers ERAN and Marabou. We perform evaluation of the tool using an NLP dataset R-U-A-Robot suggested as a benchmark for verifying legally critical NLP applications. We hope that, thanks to its general applicability, this work will open novel possibilities for including NLP verification problems into neural network verification competitions, and will popularise NLP problems within this community.

arxiv情報

著者 Marco Casadio,Luca Arnaboldi,Matthew L. Daggitt,Omri Isac,Tanvi Dinkar,Daniel Kienitz,Verena Rieser,Ekaterina Komendantskaya
発行日 2023-07-12 09:24:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク