ALEXSIS-PT: A New Resource for Portuguese Lexical Simplification

要約

語彙の簡略化 (LS) は、複雑な単語を簡単な単語に自動的に置き換えて、さまざまな対象者 (読み書き能力の低い人、学習障害のある人、第 2 言語学習者など) がテキストをよりアクセスしやすくするタスクです。
モデルをトレーニングしてテストするために、LS システムは通常、文脈内の複雑な単語とその置換候補を特徴とするコーパスを必要とします。
LS システムのパフォーマンスを向上し続けるために、ALEXSIS-PT を導入します。これは、387 の複雑な単語に対する 9,605 の置換候補を含む、ブラジル ポルトガル語 LS の新しい複数候補データセットです。
ALEXSIS-PT は、スペイン語向けの ALEXSIS プロトコルに従って編集されており、言語を超えたモデルにエキサイティングな新しい道を切り開きます。
ALEXSIS-PT は、ブラジルの新聞記事を含む初の LS 複数候補データセットです。
このデータセットでの代替生成の 4 つのモデル、つまり mDistilBERT、mBERT、XLM-R、BERTimbau を評価しました。
BERTimbau は、すべての評価指標において最高のパフォーマンスを達成しました。

要約(オリジナル)

Lexical simplification (LS) is the task of automatically replacing complex words for easier ones making texts more accessible to various target populations (e.g. individuals with low literacy, individuals with learning disabilities, second language learners). To train and test models, LS systems usually require corpora that feature complex words in context along with their candidate substitutions. To continue improving the performance of LS systems we introduce ALEXSIS-PT, a novel multi-candidate dataset for Brazilian Portuguese LS containing 9,605 candidate substitutions for 387 complex words. ALEXSIS-PT has been compiled following the ALEXSIS protocol for Spanish opening exciting new avenues for cross-lingual models. ALEXSIS-PT is the first LS multi-candidate dataset that contains Brazilian newspaper articles. We evaluated four models for substitute generation on this dataset, namely mDistilBERT, mBERT, XLM-R, and BERTimbau. BERTimbau achieved the highest performance across all evaluation metrics.

arxiv情報

著者 Kai North,Marcos Zampieri,Tharindu Ranasinghe
発行日 2024-02-09 15:30:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク