GitTables: A Large-Scale Corpus of Relational Tables

要約

タイトル:GitTables: A Large-Scale Corpus of Relational Tables

要約:
– 深層学習の成功により、大規模な表コーパスでトレーニングされた表表現モデルによるデータ準備や検索などの関係表タスクの改善に興味が出てきています。
– 現存の表コーパスは主にHTMLページから抽出されたテーブルを含んでおり、オフラインデータベーステーブルを表現する能力に制限がある。
– オフラインデータベーステーブルを表現するために、高容量モデルのトレーニングや評価のためのリソースが必要である。
– ここでは、GitHubから抽出された1Mの関係テーブルのコーパスであるGitTablesを紹介する。
– GitTablesを継続的に改善し、少なくとも10Mのテーブルを含むことを目指す。
– GitTablesの分析により、その構造、内容、トピックカバレージが既存の表コーパスと異なることが示されている。
– GitTablesのテーブル列にはSemantic Type、階層関係、Schema.org、およびDBpediaの記述が注釈されている。
– T2Dv2ベンチマークでのアノテーションパイプラインの評価は、人間の注釈と同様の結果を提供することを示す。
– GitTablesの3つのアプリケーションを示し、学習した意味的タイプ検出モデル、スキーマ補完方法、および表からKGマッチング、データ検索、および準備のベンチマークの価値を示す。
– corpusとcodeはhttps://gittables.github.ioで利用可能である。

要約(オリジナル)

The success of deep learning has sparked interest in improving relational table tasks, like data preparation and search, with table representation models trained on large table corpora. Existing table corpora primarily contain tables extracted from HTML pages, limiting the capability to represent offline database tables. To train and evaluate high-capacity models for applications beyond the Web, we need resources with tables that resemble relational database tables. Here we introduce GitTables, a corpus of 1M relational tables extracted from GitHub. Our continuing curation aims at growing the corpus to at least 10M tables. Analyses of GitTables show that its structure, content, and topical coverage differ significantly from existing table corpora. We annotate table columns in GitTables with semantic types, hierarchical relations and descriptions from Schema.org and DBpedia. The evaluation of our annotation pipeline on the T2Dv2 benchmark illustrates that our approach provides results on par with human annotations. We present three applications of GitTables, demonstrating its value for learned semantic type detection models, schema completion methods, and benchmarks for table-to-KG matching, data search, and preparation. We make the corpus and code available at https://gittables.github.io.

arxiv情報

著者 Madelon Hulsebos,Çağatay Demiralp,Paul Groth
発行日 2023-04-12 13:24:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.DB, cs.LG パーマリンク