Expanding the Vocabulary of BERT for Knowledge Base Construction

要約

知識ベースの構築には、構造化情報を取得して事実データと関係データの知識ベースを作成し、質問への回答、情報検索、意味の理解を容易にすることが含まれます。
International Semantic Web Conference 2023 の「事前トレーニング済み言語モデルからの知識ベースの構築」と呼ばれる課題では、言語モデルを使用した知識ベースの構築に焦点を当てたタスクが定義されています。
私たちは課題のトラック 1 に焦点を当てました。このトラック 1 では、パラメータが最大 10 億に制限されており、プロンプト内にエンティティの説明を含めることは禁止されています。
マスクされた言語モデルは語彙を拡張するのに十分な柔軟性を備えていますが、本質的にはマルチトークン予測用に設計されていません。
これに対処するために、知識ベース構築のための Vocabulary Expandable BERT を提案します。これは、新しく追加された単語の意味の埋め込みを維持しながら、言語モデルの語彙を拡張します。
マスクされた言語モデル上でタスク固有の再事前トレーニングを採用し、言語モデルをさらに強化します。
実験を通じて、結果は私たちのアプローチの有効性を示しています。
私たちのフレームワークは、非表示テスト セットで 0.323、検証セットで 0.362 の F1 スコアを達成しました。両方のデータ セットはチャレンジによって提供されます。
特に、私たちのフレームワークは軽量言語モデル (BERT ベース、1 億 3 千万個のパラメーター) を採用しており、大規模な言語モデルで直接プロンプトを使用するモデル (Chatgpt-3、1,750 億個のパラメーター) を上回っています。
さらに、Token-Recode は、Re-pretrain と同等のパフォーマンスを実現します。
この研究は、マルチトークン エンティティの直接埋め込みを可能にすることで言語理解モデルを進歩させ、ナレッジ グラフにおけるリンク予測タスクとデータ管理におけるメタデータの完成において大幅な前進を示しています。

要約(オリジナル)

Knowledge base construction entails acquiring structured information to create a knowledge base of factual and relational data, facilitating question answering, information retrieval, and semantic understanding. The challenge called ‘Knowledge Base Construction from Pretrained Language Models’ at International Semantic Web Conference 2023 defines tasks focused on constructing knowledge base using language model. Our focus was on Track 1 of the challenge, where the parameters are constrained to a maximum of 1 billion, and the inclusion of entity descriptions within the prompt is prohibited. Although the masked language model offers sufficient flexibility to extend its vocabulary, it is not inherently designed for multi-token prediction. To address this, we present Vocabulary Expandable BERT for knowledge base construction, which expand the language model’s vocabulary while preserving semantic embeddings for newly added words. We adopt task-specific re-pre-training on masked language model to further enhance the language model. Through experimentation, the results show the effectiveness of our approaches. Our framework achieves F1 score of 0.323 on the hidden test set and 0.362 on the validation set, both data set is provided by the challenge. Notably, our framework adopts a lightweight language model (BERT-base, 0.13 billion parameters) and surpasses the model using prompts directly on large language model (Chatgpt-3, 175 billion parameters). Besides, Token-Recode achieves comparable performances as Re-pretrain. This research advances language understanding models by enabling the direct embedding of multi-token entities, signifying a substantial step forward in link prediction task in knowledge graph and metadata completion in data management.

arxiv情報

著者 Dong Yang,Xu Wang,Remzi Celebi
発行日 2023-10-12 12:52:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T20, cs.AI, cs.CL パーマリンク