要約
いくつかの NLP タスクをカバーするデータセットが不足しているため、アフリカ言語は NLP 研究において著しく過小評価されています。
さまざまなタスクに拡張されている個々の言語固有のデータセットはありますが、いくつかの地理的および類型的に多様なアフリカ言語をカバーする標準化されたベンチマーク データセットを備えている NLP タスク (固有表現認識や機械翻訳など) はほんの一握りです。
この論文では、アフリカで広く話されている 16 の言語をカバーするニュース トピック分類のための新しいベンチマーク データセット、MasakhaNEWS を開発します。
古典的な機械学習モデルをトレーニングし、いくつかの言語モデルを微調整することにより、ベースライン モデルの評価を提供します。
さらに、言語を超えたパラメータ効率の高い微調整 (MAD-X など)、パターン活用トレーニング (PET) など、ゼロショット学習や少数ショット学習に適した言語モデルの完全な微調整に代わるいくつかの代替案を検討します。
)、プロンプト言語モデル (ChatGPT など)、プロンプトなしの文変換微調整 (SetFit および Cohere Embedding API)。
ゼロショット設定での評価では、低リソースのアフリカ言語でのニュース トピック分類に ChatGPT を使用できる可能性が示されており、MAD-X のような追加の監視を活用することなく、平均 70 F1 ポイントのパフォーマンスを達成できます。
少数ショット設定では、ラベルあたりわずか 10 個のサンプルで、PET アプローチを活用した完全教師ありトレーニング (92.6 F1 ポイント) のパフォーマンスの 90\% 以上 (つまり、86.0 F1 ポイント) を達成したことがわかります。
要約(オリジナル)
African languages are severely under-represented in NLP research due to lack of datasets covering several NLP tasks. While there are individual language specific datasets that are being expanded to different tasks, only a handful of NLP tasks (e.g. named entity recognition and machine translation) have standardized benchmark datasets covering several geographical and typologically-diverse African languages. In this paper, we develop MasakhaNEWS — a new benchmark dataset for news topic classification covering 16 languages widely spoken in Africa. We provide an evaluation of baseline models by training classical machine learning models and fine-tuning several language models. Furthermore, we explore several alternatives to full fine-tuning of language models that are better suited for zero-shot and few-shot learning such as cross-lingual parameter-efficient fine-tuning (like MAD-X), pattern exploiting training (PET), prompting language models (like ChatGPT), and prompt-free sentence transformer fine-tuning (SetFit and Cohere Embedding API). Our evaluation in zero-shot setting shows the potential of prompting ChatGPT for news topic classification in low-resource African languages, achieving an average performance of 70 F1 points without leveraging additional supervision like MAD-X. In few-shot setting, we show that with as little as 10 examples per label, we achieved more than 90\% (i.e. 86.0 F1 points) of the performance of full supervised training (92.6 F1 points) leveraging the PET approach.
arxiv情報
著者 | David Ifeoluwa Adelani,Marek Masiak,Israel Abebe Azime,Jesujoba Alabi,Atnafu Lambebo Tonja,Christine Mwase,Odunayo Ogundepo,Bonaventure F. P. Dossou,Akintunde Oladipo,Doreen Nixdorf,Chris Chinenye Emezue,sana al-azzawi,Blessing Sibanda,Davis David,Lolwethu Ndolela,Jonathan Mukiibi,Tunde Ajayi,Tatiana Moteu,Brian Odhiambo,Abraham Owodunni,Nnaemeka Obiefuna,Muhidin Mohamed,Shamsuddeen Hassan Muhammad,Teshome Mulugeta Ababu,Saheed Abdullahi Salahudeen,Mesay Gemeda Yigezu,Tajuddeen Gwadabe,Idris Abdulmumin,Mahlet Taye,Oluwabusayo Awoyomi,Iyanuoluwa Shode,Tolulope Adelani,Habiba Abdulganiyu,Abdul-Hakeem Omotayo,Adetola Adeeko,Abeeb Afolabi,Anuoluwapo Aremu,Olanrewaju Samuel,Clemencia Siro,Wangari Kimotho,Onyekachi Ogbu,Chinedu Mbonu,Chiamaka Chukwuneke,Samuel Fanijo,Jessica Ojo,Oyinkansola Awosan,Tadesse Kebede,Toadoum Sari Sakayo,Pamela Nyatsine,Freedmore Sidume,Oreen Yousuf,Mardiyyah Oduwole,Tshinu Tshinu,Ussen Kimanuka,Thina Diko,Siyanda Nxakama,Sinodos Nigusse,Abdulmejid Johar,Shafie Mohamed,Fuad Mire Hassan,Moges Ahmed Mehamed,Evrard Ngabire,Jules Jules,Ivan Ssenkungu,Pontus Stenetorp |
発行日 | 2023-09-20 17:14:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google