Question answering using deep learning in low resource Indian language Marathi

要約

質問応答システムでは、特定の入力質問に対するテキストから正確な回答が抽出されます。
マラーティー語の質問応答システムは、オントロジー、ルールベース、機械学習ベースのアプローチを使用して最近の研究で作成されました。
最近では、質問応答の課題を解決するために、トランスフォーマー モデルと転移学習アプローチが使用されています。
この論文では、読解ベースのマラーティー語質問応答システムを作成するためのさまざまな変換モデルを調査します。
私たちは、インド言語用多言語表現 (MuRIL)、MahaBERT、Transformers からのインド語双方向エンコーダー表現 (IndicBERT) など、さまざまな事前トレーニング済みマラーティー語の多言語および単言語モデルで実験し、マラーティー語読解ベースのデータセットで微調整しました。
マラーティー語データセットでモデルを微調整することにより、MuRIL 多言語モデルで EM スコア 0.64、F1 スコア 0.74 という最高の精度が得られました。

要約(オリジナル)

Precise answers are extracted from a text for a given input question in a question answering system. Marathi question answering system is created in recent studies by using ontology, rule base and machine learning based approaches. Recently transformer models and transfer learning approaches are used to solve question answering challenges. In this paper we investigate different transformer models for creating a reading comprehension-based Marathi question answering system. We have experimented on different pretrained Marathi language multilingual and monolingual models like Multilingual Representations for Indian Languages (MuRIL), MahaBERT, Indic Bidirectional Encoder Representations from Transformers (IndicBERT) and fine-tuned it on a Marathi reading comprehension-based data set. We got the best accuracy in a MuRIL multilingual model with an EM score of 0.64 and F1 score of 0.74 by fine tuning the model on the Marathi dataset.

arxiv情報

著者 Dhiraj Amin,Sharvari Govilkar,Sagar Kulkarni
発行日 2023-09-27 16:53:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク