HULAT at SemEval-2023 Task 9: Data augmentation for pre-trained transformers applied to Multilingual Tweet Intimacy Analysis

要約

このペーパーでは、SemEval-2023 タスク 9、多言語ツイートの親密性分析への参加について説明します。
さまざまなデータ拡張技術によって生成されたトレーニング データセットと合成データを使用して、最も一般的なトランスフォーマー モデルのいくつかを微調整します。
開発段階では、XLM-T を使用することで最高の結果が得られました。
データ拡張技術により、結果がわずかに改善されます。
当社のシステムは、45 の参加システムのうち 27 位にランクされました。
その控えめな結果にもかかわらず、私たちのシステムは、ポルトガル語、英語、オランダ語などの言語で有望な結果を示しています.
すべてのコードは、リポジトリ \url{https://github.com/isegura/hulat_intimacy} で入手できます。

要約(オリジナル)

This paper describes our participation in SemEval-2023 Task 9, Intimacy Analysis of Multilingual Tweets. We fine-tune some of the most popular transformer models with the training dataset and synthetic data generated by different data augmentation techniques. During the development phase, our best results were obtained by using XLM-T. Data augmentation techniques provide a very slight improvement in the results. Our system ranked in the 27th position out of the 45 participating systems. Despite its modest results, our system shows promising results in languages such as Portuguese, English, and Dutch. All our code is available in the repository \url{https://github.com/isegura/hulat_intimacy}.

arxiv情報

著者 Isabel Segura-Bedmar
発行日 2023-02-24 18:10:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE パーマリンク