Performance of Data Augmentation Methods for Brazilian Portuguese Text Classification



– 機械学習の性能を向上させることは、AI研究者によって常に追求されている目標です。
– データ拡張技術は、この目標を達成するためによく用いられ、その評価のほとんどは英語コーパスを使用しています。
– 本研究では、既存のさまざまなデータ拡張方法を活用し、ブラジルポルトガル語コーパスを用いたテキスト分類問題に適用した性能を分析しました。
– 結果として、いくつかの技術を用いた場合には潜在的な改善が見られますが、言語バイアスや非英語テキストデータの不足などの問題が指摘され、今後の開発の余地があります。


Improving machine learning performance while increasing model generalization has been a constantly pursued goal by AI researchers. Data augmentation techniques are often used towards achieving this target, and most of its evaluation is made using English corpora. In this work, we took advantage of different existing data augmentation methods to analyze their performances applied to text classification problems using Brazilian Portuguese corpora. As a result, our analysis shows some putative improvements in using some of these techniques; however, it also suggests further exploitation of language bias and non-English text data scarcity.


著者 Marcellus Amadeus,Paulo Branco
発行日 2023-04-05 23:13:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL パーマリンク