Forget NLI, Use a Dictionary: Zero-Shot Topic Classification for Low-Resource Languages with Application to Luxembourgish

要約

NLP では、ゼロショット分類 (ZSC) は、ターゲット クラスのラベル付きサンプルを使用せずにテキスト データにラベルを割り当てるタスクです。
ZSC の一般的な方法は、自然言語推論 (NLI) データセットで言語モデルを微調整し、それを使用して入力ドキュメントとターゲット ラベルの間の含意を推論することです。
ただし、このアプローチは、特にリソースが限られている言語では、特定の課題に直面します。
このペーパーでは、ZSC のデータ ソースとして辞書を活用する代替ソリューションを提案します。
私たちは、ルクセンブルクで話されているリソースの少ない言語であるルクセンブルク語に焦点を当て、さまざまな同義語、単語の翻訳、例文を提供する辞書に基づいて、2 つの新しいトピック関連性分類データセットを構築しました。
データセットの使いやすさを評価し、ゼロショット方式で 2 つのトピック分類タスクに関する NLI ベースのアプローチと比較します。
私たちの結果は、辞書ベースのデータセットを使用することにより、トレーニングされたモデルが ZSC に対する NLI ベースのアプローチに従ったモデルよりも優れたパフォーマンスを発揮することを示しています。
この研究ではリソースの少ない単一の言語に焦点を当てていますが、このアプローチの有効性は、そのような辞書が利用可能な他の言語にも適用できると考えています。

要約(オリジナル)

In NLP, zero-shot classification (ZSC) is the task of assigning labels to textual data without any labeled examples for the target classes. A common method for ZSC is to fine-tune a language model on a Natural Language Inference (NLI) dataset and then use it to infer the entailment between the input document and the target labels. However, this approach faces certain challenges, particularly for languages with limited resources. In this paper, we propose an alternative solution that leverages dictionaries as a source of data for ZSC. We focus on Luxembourgish, a low-resource language spoken in Luxembourg, and construct two new topic relevance classification datasets based on a dictionary that provides various synonyms, word translations and example sentences. We evaluate the usability of our dataset and compare it with the NLI-based approach on two topic classification tasks in a zero-shot manner. Our results show that by using the dictionary-based dataset, the trained models outperform the ones following the NLI-based approach for ZSC. While we focus on a single low-resource language in this study, we believe that the efficacy of our approach can also transfer to other languages where such a dictionary is available.

arxiv情報

著者 Fred Philippy,Shohreh Haddadan,Siwen Guo
発行日 2024-04-05 06:35:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク