要約
タイトル:MasakhaNEWS:アフリカ言語のニューストピック分類
要約:NLPタスクをカバーするデータセットが不足していたため、アフリカの言語はNLP研究において極めて少なく、特定の言語に特化したデータセットはあるが、2つ以上のNLPタスクをカバーする標準化されたベンチマークデータセットは、名前付きエンティティ認識と機械翻訳などごくわずかなものしかありません。この論文では、アフリカで広く使われている16の言語をカバーするニューストピック分類の新しいベンチマークデータセットであるMasakhaNEWSを開発します。古典的な機械学習モデルのトレーニングと繰り返し学習によるいくつかの言語モデルの調整によるベースラインモデルの評価も提供しています。さらに、MAD-Xなどのゼロショットやフューショット学習のために適したフルファインチューニングの代替手段をいくつか探索しています。PET、ChatGPTなどのプロンプトレスシンタックストランスフォーマーファインチューニング(SetFitとCohere Embedding API)を含むアプローチです。ゼロショットセッティングでの評価は、ChatGPTをプロンプトとして使用することで、MAD-Xなどの追加監視を利用せずに、平均70 F1ポイントのパフォーマンスを発揮する可能性を示しています。フューショットセッティングでは、ラベルごとにわずか10の例で、PETアプローチを利用して、完全監視トレーニング(92.6 F1ポイント)のパフォーマンスの90%以上(すなわち86.0 F1ポイント)を達成することができることを示します。
要約(オリジナル)
African languages are severely under-represented in NLP research due to lack of datasets covering several NLP tasks. While there are individual language specific datasets that are being expanded to different tasks, only a handful of NLP tasks (e.g. named entity recognition and machine translation) have standardized benchmark datasets covering several geographical and typologically-diverse African languages. In this paper, we develop MasakhaNEWS — a new benchmark dataset for news topic classification covering 16 languages widely spoken in Africa. We provide an evaluation of baseline models by training classical machine learning models and fine-tuning several language models. Furthermore, we explore several alternatives to full fine-tuning of language models that are better suited for zero-shot and few-shot learning such as cross-lingual parameter-efficient fine-tuning (like MAD-X), pattern exploiting training (PET), prompting language models (like ChatGPT), and prompt-free sentence transformer fine-tuning (SetFit and Cohere Embedding API). Our evaluation in zero-shot setting shows the potential of prompting ChatGPT for news topic classification in low-resource African languages, achieving an average performance of 70 F1 points without leveraging additional supervision like MAD-X. In few-shot setting, we show that with as little as 10 examples per label, we achieved more than 90\% (i.e. 86.0 F1 points) of the performance of full supervised training (92.6 F1 points) leveraging the PET approach.
arxiv情報
著者 | David Ifeoluwa Adelani,Marek Masiak,Israel Abebe Azime,Jesujoba Oluwadara Alabi,Atnafu Lambebo Tonja,Christine Mwase,Odunayo Ogundepo,Bonaventure F. P. Dossou,Akintunde Oladipo,Doreen Nixdorf,Chris Chinenye Emezue,Sana Sabah al-azzawi,Blessing K. Sibanda,Davis David,Lolwethu Ndolela,Jonathan Mukiibi,Tunde Oluwaseyi Ajayi,Tatiana Moteu Ngoli,Brian Odhiambo,Abraham Toluwase Owodunni,Nnaemeka C. Obiefuna,Shamsuddeen Hassan Muhammad,Saheed Salahudeen Abdullahi,Mesay Gemeda Yigezu,Tajuddeen Gwadabe,Idris Abdulmumin,Mahlet Taye Bame,Oluwabusayo Olufunke Awoyomi,Iyanuoluwa Shode,Tolulope Anu Adelani,Habiba Abdulganiy Kailani,Abdul-Hakeem Omotayo,Adetola Adeeko,Afolabi Abeeb,Anuoluwapo Aremu,Olanrewaju Samuel,Clemencia Siro,Wangari Kimotho,Onyekachi Raphael Ogbu,Chinedu E. Mbonu,Chiamaka I. Chukwuneke,Samuel Fanijo,Jessica Ojo,Oyinkansola F. Awosan,Tadesse Kebede Guge,Sakayo Toadoum Sari,Pamela Nyatsine,Freedmore Sidume,Oreen Yousuf,Mardiyyah Oduwole,Ussen Kimanuka,Kanda Patrick Tshinu,Thina Diko,Siyanda Nxakama,Abdulmejid Tuni Johar,Sinodos Gebre,Muhidin Mohamed,Shafie Abdi Mohamed,Fuad Mire Hassan,Moges Ahmed Mehamed,Evrard Ngabire,Pontus Stenetorp |
発行日 | 2023-04-19 21:12:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI