Developing PUGG for Polish: A Modern Approach to KBQA, MRC, and IR Dataset Construction


AI と自然言語処理の進歩は、質問応答 (QA) システムが極めて重要な役割を果たし、機械と人間の言語対話に革命をもたらしました。
知識ベースの質問応答 (KBQA) タスクでは、構造化ナレッジ グラフ (KG) を利用して、広範な知識集約型の質問を処理できます。
ただし、KBQA データセットには、特に低リソース言語の場合に大きなギャップが存在します。
これらのデータセットの既存の構築パイプラインの多くは時代遅れで人的作業の効率が悪く、ラージ言語モデル (LLM) のような最新の支援ツールは作業負荷を軽減するために利用されていません。
これに対処するために、私たちは、KBQA、機械読解理解 (MRC)、情報検索 (IR) などのタスクを含む、データセットを作成するための最新の半自動アプローチを設計および実装し、低リソース環境向けに明示的に調整しました。
私たちはこのパイプラインを実行し、PUGG データセット、ポーランド初の KBQA データセット、MRC および IR 用の新しいデータセットを導入しました。
さらに、包括的な実装、洞察に満ちた調査結果、詳細な統計、ベースライン モデルの評価も提供します。


Advancements in AI and natural language processing have revolutionized machine-human language interactions, with question answering (QA) systems playing a pivotal role. The knowledge base question answering (KBQA) task, utilizing structured knowledge graphs (KG), allows for handling extensive knowledge-intensive questions. However, a significant gap exists in KBQA datasets, especially for low-resource languages. Many existing construction pipelines for these datasets are outdated and inefficient in human labor, and modern assisting tools like Large Language Models (LLM) are not utilized to reduce the workload. To address this, we have designed and implemented a modern, semi-automated approach for creating datasets, encompassing tasks such as KBQA, Machine Reading Comprehension (MRC), and Information Retrieval (IR), tailored explicitly for low-resource environments. We executed this pipeline and introduced the PUGG dataset, the first Polish KBQA dataset, and novel datasets for MRC and IR. Additionally, we provide a comprehensive implementation, insightful findings, detailed statistics, and evaluation of baseline models.


著者 Albert Sawczyn,Katsiaryna Viarenich,Konrad Wojtasik,Aleksandra Domogała,Marcin Oleksy,Maciej Piasecki,Tomasz Kajdanowicz
発行日 2024-08-05 09:23:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク