InfoSync: Information Synchronization across Multilingual Semi-structured Tables

要約

言語間での半構造化データの情報同期は困難です。
たとえば、ある言語の Wikipedia テーブルは言語間で同期する必要があります。
この問題に対処するために、新しいデータセット InfoSyncC と、表形式の同期のための 2 段階の方法を導入します。
InfoSync には、14 言語にわたる 100K のエンティティ中心のテーブル (Wikipedia Infoboxes) が含まれており、そのサブセット (3.5K ペア) には手動で注釈が付けられています。
提案された方法には、1) 行をマップするための情報の調整、および 2) 多言語テーブル間で調整されたテーブルの欠落または古い情報を更新するための情報の更新が含まれます。
InfoSync で評価すると、情報の調整は F1 スコア 87.91 (en <-> non-en) を達成しました。
情報の更新を評価するために、603 のテーブル ペアの Infobox で人力による Wikipedia 編集を実行します。
私たちのアプローチは Wikipedia で 77.28% の受け入れ率を獲得しており、提案された方法の有効性を示しています。

要約(オリジナル)

Information Synchronization of semi-structured data across languages is challenging. For instance, Wikipedia tables in one language should be synchronized across languages. To address this problem, we introduce a new dataset InfoSyncC and a two-step method for tabular synchronization. InfoSync contains 100K entity-centric tables (Wikipedia Infoboxes) across 14 languages, of which a subset (3.5K pairs) are manually annotated. The proposed method includes 1) Information Alignment to map rows and 2) Information Update for updating missing/outdated information for aligned tables across multilingual tables. When evaluated on InfoSync, information alignment achieves an F1 score of 87.91 (en <-> non-en). To evaluate information updation, we perform human-assisted Wikipedia edits on Infoboxes for 603 table pairs. Our approach obtains an acceptance rate of 77.28% on Wikipedia, showing the effectiveness of the proposed method.

arxiv情報

著者 Siddharth Khincha,Chelsi Jain,Vivek Gupta,Tushar Kataria,Shuo Zhang
発行日 2023-07-06 21:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.IR パーマリンク