UZH_CLyp at SemEval-2023 Task 9: Head-First Fine-Tuning and ChatGPT Data Generation for Cross-Lingual Learning in Tweet Intimacy Prediction

要約

この論文では、SemEval 2023 タスク 9「多言語ツイートの親密さ分析」のための UZH_CLyp の提出について説明します。
公式のピアソンの相関回帰評価測定によると、10 言語すべてで 2 番目に良い結果を達成しました。
私たちのクロスリンガル転送学習アプローチでは、Head-First Fine-Tuning メソッド (HeFiT) を使用する利点を探ります。このメソッドは、最初に回帰ヘッド パラメーターのみを更新し、次に事前トレーニング済みの変換エンコーダー パラメーターも低い学習率で更新します。
さらに、人間がラベル付けしたデータが利用できない低リソース設定で、自動生成されたサンプル (この場合は ChatGPT から) の小さなセットを使用することの影響を調査します。
私たちの研究は、HeFiT がトレーニングを安定させ、ツイートへのドメイン適応を欠く事前トレーニング済みモデルの結果を一貫して改善することを示しています。
また、私たちの調査では、合成データを使用するとクロスリンガル学習のパフォーマンスが著しく向上することが示され、現在のテキスト生成システムがゼロ ショット ベースラインの結果を改善する有用性が確認されました。
最後に、注釈付きデータの矛盾が言語間干渉の問題にどのように寄与するかを調べます。

要約(オリジナル)

This paper describes the submission of UZH_CLyp for the SemEval 2023 Task 9 ‘Multilingual Tweet Intimacy Analysis’. We achieved second-best results in all 10 languages according to the official Pearson’s correlation regression evaluation measure. Our cross-lingual transfer learning approach explores the benefits of using a Head-First Fine-Tuning method (HeFiT) that first updates only the regression head parameters and then also updates the pre-trained transformer encoder parameters at a reduced learning rate. Additionally, we study the impact of using a small set of automatically generated examples (in our case, from ChatGPT) for low-resource settings where no human-labeled data is available. Our study shows that HeFiT stabilizes training and consistently improves results for pre-trained models that lack domain adaptation to tweets. Our study also shows a noticeable performance increase in cross-lingual learning when synthetic data is used, confirming the usefulness of current text generation systems to improve zero-shot baseline results. Finally, we examine how possible inconsistencies in the annotated data contribute to cross-lingual interference issues.

arxiv情報

著者 Andrianos Michail,Stefanos Konstantinou,Simon Clematide
発行日 2023-03-02 12:18:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL パーマリンク