Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation

要約

既存のテクノロジーは、さまざまな観点から BERT を拡張します。
さまざまな事前トレーニング タスク、さまざまなセマンティック粒度、およびさまざまなモデル アーキテクチャを設計します。
さまざまなテキスト形式から BERT を拡張することを考慮したモデルはほとんどありません。
この論文では、非構造化テキスト、半構造化テキスト、および適切に構造化されたテキストを含むあらゆる形式のテキストを対象とした、統合された事前トレーニング済み言語モデル (PLM) である異種知識言語モデル (\textbf{HKLM}) を提案します。
これらのマルチフォーマットの知識間の対応関係を把握するために、私たちのアプローチは、単語知識を学習するためにマスクされた言語モデル目標を使用し、エンティティ知識とトピック知識をそれぞれ学習するために三重分類目標とタイトルマッチング目標を使用します。
前述のマルチフォーマットテキストを取得するために、観光ドメインでコーパスを構築し、5 つの観光 NLP データセットで実験を行います。
結果は、私たちのアプローチがデータの 1/4 のみを使用したプレーン テキストの事前トレーニングよりも優れていることを示しています。
さらに、ドメインに依存しない HKLM を事前トレーニングし、XNLI データセットのパフォーマンス向上を実現します。

要約(オリジナル)

Existing technologies expand BERT from different perspectives, e.g. designing different pre-training tasks, different semantic granularities, and different model architectures. Few models consider expanding BERT from different text formats. In this paper, we propose a heterogeneous knowledge language model (\textbf{HKLM}), a unified pre-trained language model (PLM) for all forms of text, including unstructured text, semi-structured text, and well-structured text. To capture the corresponding relations among these multi-format knowledge, our approach uses masked language model objective to learn word knowledge, uses triple classification objective and title matching objective to learn entity knowledge and topic knowledge respectively. To obtain the aforementioned multi-format text, we construct a corpus in the tourism domain and conduct experiments on 5 tourism NLP datasets. The results show that our approach outperforms the pre-training of plain text using only 1/4 of the data. We further pre-train the domain-agnostic HKLM and achieve performance gains on the XNLI dataset.

arxiv情報

著者 Hongyin Zhu,Hao Peng,Zhiheng Lyu,Lei Hou,Juanzi Li,Jinghui Xiao
発行日 2024-03-21 09:23:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク