MegaWika: Millions of reports and their sources across 50 diverse languages

要約

AI 支援による共同レポート生成のための新しいモデルの開発を促進するために、50 の多様な言語で書かれた 1,300 万件の Wikipedia 記事と、7,100 万件の参照ソース資料で構成される MegaWika を紹介します。
私たちはこのデータセットを無数のアプリケーション向けに処理し、初期の Wikipedia 引用抽出やコンテンツの Web スクレイピングを超えて、英語以外の記事を言語をまたがるアプリケーションに翻訳したり、自動セマンティック分析のための FrameNet 解析を提供したりするなどの処理を行っています。
MegaWika は、文レベルのレポート生成のための最大のリソースであり、多言語対応の唯一のレポート生成データセットです。
意味的に階層化されたサンプルを通じて、このリソースの品質を手動で分析します。
最後に、自動レポート生成の重要なステップである、言語を超えた質問応答と引用の検索のベースライン結果とトレーニング済みモデルを提供します。

要約(オリジナル)

To foster the development of new models for collaborative AI-assisted report generation, we introduce MegaWika, consisting of 13 million Wikipedia articles in 50 diverse languages, along with their 71 million referenced source materials. We process this dataset for a myriad of applications, going beyond the initial Wikipedia citation extraction and web scraping of content, including translating non-English articles for cross-lingual applications and providing FrameNet parses for automated semantic analysis. MegaWika is the largest resource for sentence-level report generation and the only report generation dataset that is multilingual. We manually analyze the quality of this resource through a semantically stratified sample. Finally, we provide baseline results and trained models for crucial steps in automated report generation: cross-lingual question answering and citation retrieval.

arxiv情報

著者 Samuel Barham,Orion Weller,Michelle Yuan,Kenton Murray,Mahsa Yarmohammadi,Zhengping Jiang,Siddharth Vashishtha,Alexander Martin,Anqi Liu,Aaron Steven White,Jordan Boyd-Graber,Benjamin Van Durme
発行日 2023-07-13 20:04:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク