Don’t Touch My Diacritics

要約

NLP モデルにテキストを入力する前にテキストを前処理する一般的な方法では、モデルのパフォーマンスに意図しない結果をもたらす多くの意思決定ポイントが導入されます。
この意見記事では、多くの言語や文字で作成されたテキストにおける発音記号の取り扱いに焦点を当てます。
私たちは、いくつかのケーススタディを通じて、発音記号付き文字の一貫性のないエンコーディングと発音記号の完全な削除による悪影響を実証します。
私たちは、発音区別符号化されたテキストの処理を改善し、ひいては多言語 NLP の公平性を高めるために、すべてのモデルとツールキットにわたってシンプルだが必要な手順を採用することをコミュニティに呼びかけます。

要約(オリジナル)

The common practice of preprocessing text before feeding it into NLP models introduces many decision points which have unintended consequences on model performance. In this opinion piece, we focus on the handling of diacritics in texts originating in many languages and scripts. We demonstrate, through several case studies, the adverse effects of inconsistent encoding of diacritized characters and of removing diacritics altogether. We call on the community to adopt simple but necessary steps across all models and toolkits in order to improve handling of diacritized text and, by extension, increase equity in multilingual NLP.

arxiv情報

著者 Kyle Gorman,Yuval Pinter
発行日 2024-10-31 17:03:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク