Table Question Answering for Low-resourced Indic Languages

要約

TableQAとは、構造化された情報の表に対する質問に答え、個々のセルまたは表を出力として返すタスクである。TableQAの研究は、主に高リソース言語に焦点を当てており、中・低リソース言語では、アノテーションデータとニューラルモデルが不足しているため、ほとんど進展していない。我々は、限られた予算で低リソース言語のための完全自動大規模TableQAデータ生成プロセスを導入することにより、このギャップに対処する。我々は、tableQAデータセットもモデルもない2つのインド系言語、ベンガル語とヒンディー語に、我々のデータ生成方法を取り入れた。我々の大規模データセットで学習させたTableQAモデルは、最先端のLLMを凌駕した。我々はさらに、数学的推論能力やゼロショットでの言語間転送など、様々な側面から学習済みモデルを研究している。我々の研究は、スケーラブルなデータ生成と評価手順に焦点を当てた低リソースtableQAに関する最初のものである。我々の提案するデータ生成方法は、ウェブ上で存在するあらゆる低リソース言語に適用可能である。データセット、モデル、コードを公開する(https://github.com/kolk/Low-Resource-TableQA-Indic-languages)。

要約(オリジナル)

TableQA is the task of answering questions over tables of structured information, returning individual cells or tables as output. TableQA research has focused primarily on high-resource languages, leaving medium- and low-resource languages with little progress due to scarcity of annotated data and neural models. We address this gap by introducing a fully automatic large-scale tableQA data generation process for low-resource languages with limited budget. We incorporate our data generation method on two Indic languages, Bengali and Hindi, which have no tableQA datasets or models. TableQA models trained on our large-scale datasets outperform state-of-the-art LLMs. We further study the trained models on different aspects, including mathematical reasoning capabilities and zero-shot cross-lingual transfer. Our work is the first on low-resource tableQA focusing on scalable data generation and evaluation procedures. Our proposed data generation method can be applied to any low-resource language with a web presence. We release datasets, models, and code (https://github.com/kolk/Low-Resource-TableQA-Indic-languages).

arxiv情報

著者 Vaishali Pal,Evangelos Kanoulas,Andrew Yates,Maarten de Rijke
発行日 2024-10-04 16:26:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク