READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input Noises

要約

多くの現実世界のアプリケーションでは、ユーザーが生成した入力には通常、言語のバリエーション 1 やタイプミス (入力ミス) による音声認識エラーによるさまざまなノイズが含まれています。
したがって、堅牢性と公平性を確保するために、現実的な入力ノイズを使用してデータでモデルのパフォーマンスをテストすることが重要です。
しかし、現実世界でさまざまな言語固有の入力ノイズが発生する中国語について、そのようなベンチマークを構築するための研究はほとんど行われていません。
この重要なギャップを埋めるために、READIN を構築します。これは、現実的で多様な入力ノイズを備えた中国のマルチタスク ベンチマークです。
READIN には 4 つのさまざまなタスクが含まれており、アノテーターは、ピンイン入力と音声入力という 2 つの一般的に使用される中国語入力方法を使用して元のテスト データを再入力するように要求されます。
多様性を最大化するようにアノテーション パイプラインを設計しました。たとえば、キーボード ノイズにはさまざまなインプット メソッド エディター (IME) を使用するようアノテーターに指示し、スピーチ ノイズにはさまざまな弁証法的グループからスピーカーを募集します。
一連の強力な事前トレーニング済み言語モデルと堅牢なトレーニング方法を試してみたところ、これらのモデルは、データ拡張などの堅牢性方法を使用しても、READIN で大幅なパフォーマンス低下を被ることが多いことがわかりました。
ユーザーが生成した入力に合わせたノイズを含むベンチマークを作成する最初の大規模な試みとして、READIN は既存の中国語 NLP ベンチマークを補完する重要な役割を果たすと考えています。
ソース コードとデータセットは、https://github.com/thunlp/READIN から取得できます。

要約(オリジナル)

For many real-world applications, the user-generated inputs usually contain various noises due to speech recognition errors caused by linguistic variations1 or typographical errors (typos). Thus, it is crucial to test model performance on data with realistic input noises to ensure robustness and fairness. However, little study has been done to construct such benchmarks for Chinese, where various language-specific input noises happen in the real world. In order to fill this important gap, we construct READIN: a Chinese multi-task benchmark with REalistic And Diverse Input Noises. READIN contains four diverse tasks and requests annotators to re-enter the original test data with two commonly used Chinese input methods: Pinyin input and speech input. We designed our annotation pipeline to maximize diversity, for example by instructing the annotators to use diverse input method editors (IMEs) for keyboard noises and recruiting speakers from diverse dialectical groups for speech noises. We experiment with a series of strong pretrained language models as well as robust training methods, we find that these models often suffer significant performance drops on READIN even with robustness methods like data augmentation. As the first large-scale attempt in creating a benchmark with noises geared towards user-generated inputs, we believe that READIN serves as an important complement to existing Chinese NLP benchmarks. The source code and dataset can be obtained from https://github.com/thunlp/READIN.

arxiv情報

著者 Chenglei Si,Zhengyan Zhang,Yingfa Chen,Xiaozhi Wang,Zhiyuan Liu,Maosong Sun
発行日 2023-02-14 20:14:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク