Benchmarking Procedural Language Understanding for Low-Resource Languages: A Case Study on Turkish

要約

手続き型の自然言語 (ステップバイステップの指示など) を理解することは、実行と計画への重要なステップです。
ただし、英語では利用可能なコーパスと下流タスクが豊富にありますが、この分野にはほとんどの言語ではそのようなリソースがありません。
このギャップに対処するために、私たちはトルコ語の手続き文書に関するケーススタディを実施します。
まず、自動翻訳ツールを使用して、トルコ語 wikiHow のチュートリアルの数を 2,000 から 52,000 に拡大します。そこでは、翻訳の品質と元の意味への忠実度が、ランダムなセットの専門家チームによって検証されます。
次に、アクションのリンク、目標推論、要約など、コーパス上でいくつかの下流タスクを生成します。
これらのタスクに取り組むために、TR-BART や BERTurk などの大規模な言語固有モデルや、mBART、mT5、XLM などの多言語モデルを微調整することにより、強力なベースライン モデルを実装します。
ほとんどの手続き型言語理解 (PLU) タスクにおいて、言語固有のモデルが多言語モデルを大幅に上回っていることがわかりました。
コーパス、ダウンストリーム タスク、およびベースライン モデルを https://github.com/GGLAB-KU/turkish-plu でリリースします。

要約(オリジナル)

Understanding procedural natural language (e.g., step-by-step instructions) is a crucial step to execution and planning. However, while there are ample corpora and downstream tasks available in English, the field lacks such resources for most languages. To address this gap, we conduct a case study on Turkish procedural texts. We first expand the number of tutorials in Turkish wikiHow from 2,000 to 52,000 using automated translation tools, where the translation quality and loyalty to the original meaning are validated by a team of experts on a random set. Then, we generate several downstream tasks on the corpus, such as linking actions, goal inference, and summarization. To tackle these tasks, we implement strong baseline models via fine-tuning large language-specific models such as TR-BART and BERTurk, as well as multilingual models such as mBART, mT5, and XLM. We find that language-specific models consistently outperform their multilingual models by a significant margin across most procedural language understanding (PLU) tasks. We release our corpus, downstream tasks and the baseline models with https://github.com/ GGLAB-KU/turkish-plu.

arxiv情報

著者 Arda Uzunoğlu,Gözde Gül Şahin
発行日 2023-09-13 03:42:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク