OPI at SemEval 2023 Task 9: A Simple But Effective Approach to Multilingual Tweet Intimacy Analysis


タイトル:SemEval 2023タスク9におけるOPI:多言語ツイート親密度分析に対する簡単で効果的な手法

– 本論文では、SemEval 2023の多言語ツイート親密度分析共有タスクへの提出について述べている。
– タスクの目的は、10言語でTwitterポストの親密度を評価することであった。
– 提案手法は、複数のステップで構成されている。
– 最初に、ドメイン内のプレトレーニングを行って、Twitterデータに適合した言語モデルを作成する。
– 次に、疑似ラベル付きの例を使用してトレーニングセットを拡張するために回帰モデルのアンサンブルを訓練する。
– 拡張されたデータセットは、最終的な解決策のトレーニングに使用される。
– 提案手法は、10の言語サブタスクのうち5つで1位を獲得し、すべての言語で最高の平均スコアを獲得した。


This paper describes our submission to the SemEval 2023 multilingual tweet intimacy analysis shared task. The goal of the task was to assess the level of intimacy of Twitter posts in ten languages. The proposed approach consists of several steps. First, we perform in-domain pre-training to create a language model adapted to Twitter data. In the next step, we train an ensemble of regression models to expand the training set with pseudo-labeled examples. The extended dataset is used to train the final solution. Our method was ranked first in five out of ten language subtasks, obtaining the highest average score across all languages.


著者 Sławomir Dadas
発行日 2023-04-14 13:49:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク