Domain Adaptation of Transformer-Based Models using Unlabeled Data for Relevance and Polarity Classification of German Customer Feedback

要約

顧客からのフィードバックを理解することは、企業が問題を特定し、製品やサービスを改善するために必要になってきています。
テキスト分類とセンチメント分析は、さまざまな機械学習とディープ ラーニングのアプローチを使用して、このデータを分析する上で重要な役割を果たすことができます。
この作業では、さまざまな変圧器ベースのモデルを利用して、ドイツの顧客フィードバック データセットを操作する際にこれらのモデルがどれほど効率的であるかを調べます。
さらに、これらの事前トレーニング済みモデルをさらに分析して、ラベル付けされていないデータを使用して特定のドメインに適応させると、市販の事前トレーニング済みモデルよりも優れた結果が得られるかどうかを判断します。
モデルを評価するために、GermEval 2017 からの 2 つのダウンストリーム タスクが考慮されます。
実験結果は、トランスフォーマーベースのモデルが fastText ベースラインと比較して大幅な改善に達し、公開されたスコアや以前のモデルよりも優れていることを示しています。
サブタスクの関連性分類の場合、最良のモデルは、最初のテスト セットで 96.1 %、2 番目のテスト セットで 95.9 % のマイクロ平均 $F1$ スコアを達成し、サブタスクの極性分類で 85.1 % と 85.3 % のスコアを達成します。

要約(オリジナル)

Understanding customer feedback is becoming a necessity for companies to identify problems and improve their products and services. Text classification and sentiment analysis can play a major role in analyzing this data by using a variety of machine and deep learning approaches. In this work, different transformer-based models are utilized to explore how efficient these models are when working with a German customer feedback dataset. In addition, these pre-trained models are further analyzed to determine if adapting them to a specific domain using unlabeled data can yield better results than off-the-shelf pre-trained models. To evaluate the models, two downstream tasks from the GermEval 2017 are considered. The experimental results show that transformer-based models can reach significant improvements compared to a fastText baseline and outperform the published scores and previous models. For the subtask Relevance Classification, the best models achieve a micro-averaged $F1$-Score of 96.1 % on the first test set and 95.9 % on the second one, and a score of 85.1 % and 85.3 % for the subtask Polarity Classification.

arxiv情報

著者 Ahmad Idrissi-Yaghir,Henning Schäfer,Nadja Bauer,Christoph M. Friedrich
発行日 2023-03-08 12:29:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク