要約
このペーパーでは、SemEval-2023 タスク 9、多言語ツイートの親密性分析への参加について説明します。
さまざまなデータ拡張技術によって生成されたトレーニング データセットと合成データを使用して、最も一般的なトランスフォーマー モデルのいくつかを微調整します。
開発段階では、XLM-T を使用することで最高の結果が得られました。
データ拡張技術により、結果がわずかに改善されます。
当社のシステムは、45 の参加システムのうち 27 位にランクされました。
その控えめな結果にもかかわらず、私たちのシステムは、ポルトガル語、英語、オランダ語などの言語で有望な結果を示しています.
すべてのコードは、リポジトリ \url{https://github.com/isegura/hulat_intimacy} で入手できます。
要約(オリジナル)
This paper describes our participation in SemEval-2023 Task 9, Intimacy Analysis of Multilingual Tweets. We fine-tune some of the most popular transformer models with the training dataset and synthetic data generated by different data augmentation techniques. During the development phase, our best results were obtained by using XLM-T. Data augmentation techniques provide a very slight improvement in the results. Our system ranked in the 27th position out of the 45 participating systems. Despite its modest results, our system shows promising results in languages such as Portuguese, English, and Dutch. All our code is available in the repository \url{https://github.com/isegura/hulat_intimacy}.
arxiv情報
著者 | Isabel Segura-Bedmar |
発行日 | 2023-02-24 18:10:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google