Ukrainian Texts Classification: Exploration of Cross-lingual Knowledge Transfer Approaches

要約

NLP テキスト分類フィールドには大量のラベル付きデータセットがあるにもかかわらず、さまざまな言語間でのデータ利用可能性の不均衡が依然として明らかです。
特にウクライナ語は、言語を超えた方法論の継続的な改良によって依然として恩恵を受けることができる言語です。
私たちの知識によると、典型的なテキスト分類タスク用のウクライナ語コーパスが大幅に不足しています。
この研究では、NLP の最先端の進歩を活用し、大規模な多言語エンコーダーと翻訳システム、LLM、言語アダプターなど、手動によるデータ キュレーションを回避する言語を越えた知識伝達方法を検討します。
私たちは、有害性分類、形式性分類、自然言語推論という 3 つのテキスト分類タスクに関するアプローチをテストし、最適な設定の「レシピ」を提供します。

要約(オリジナル)

Despite the extensive amount of labeled datasets in the NLP text classification field, the persistent imbalance in data availability across various languages remains evident. Ukrainian, in particular, stands as a language that still can benefit from the continued refinement of cross-lingual methodologies. Due to our knowledge, there is a tremendous lack of Ukrainian corpora for typical text classification tasks. In this work, we leverage the state-of-the-art advances in NLP, exploring cross-lingual knowledge transfer methods avoiding manual data curation: large multilingual encoders and translation systems, LLMs, and language adapters. We test the approaches on three text classification tasks — toxicity classification, formality classification, and natural language inference — providing the ‘recipe’ for the optimal setups.

arxiv情報

著者 Daryna Dementieva,Valeriia Khylenko,Georg Groh
発行日 2024-04-02 15:37:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク