要約
この論文では、トランスフォーマー モデルを使用した自然言語の理解と生成が、知識表現でモデルを基礎付けることでどのように利益を得られるかを調査し、次の重要な研究課題に取り組みます: (i) エンティティの知識は、エンティティのリンクなど、エンティティ中心のタスクを超えてその利点を拡張できるか?
(ii) 生のテキスト、特にノイズの多い Web テキストからこのような構造化された知識を忠実かつ効果的に抽出するにはどうすればよいでしょうか?
(iii) 構造化された知識以外の他の種類の知識は、NLP タスクの改善にどのように貢献しますか?
この論文の研究では、エンティティに関する関連性のある最新の知識を組み込むことがフェイク ニュースの検出に利益をもたらし、エンティティに焦点を当てたコードスイッチングにより、エンティティ中心のタスクにおけるゼロショットのクロスリンガル転送が大幅に強化されることがわかりました。
構造化された知識を抽出するための効果的かつ忠実なアプローチに関しては、ネガティブな例とトレーニングをエンティティ プランニングと統合すると、パフォーマンスが大幅に向上することが観察されています。
さらに、パラメトリック知識や抽出された知識など、他の一般的な形式の知識が、マルチモーダルで多言語の知識集約型タスクを強化することが確立されています。
この研究は、多様な知識の統合の具体的な利点を示しており、この方向でのさらなる探求の動機付けとなります。
要約(オリジナル)
This thesis investigates how natural language understanding and generation with transformer models can benefit from grounding the models with knowledge representations and addresses the following key research questions: (i) Can knowledge of entities extend its benefits beyond entity-centric tasks, such as entity linking? (ii) How can we faithfully and effectively extract such structured knowledge from raw text, especially noisy web text? (iii) How do other types of knowledge, beyond structured knowledge, contribute to improving NLP tasks? Studies in this thesis find that incorporating relevant and up-to-date knowledge of entities benefits fake news detection, and entity-focused code-switching significantly enhances zero-shot cross-lingual transfer on entity-centric tasks. In terms of effective and faithful approaches to extracting structured knowledge, it is observed that integrating negative examples and training with entity planning significantly improves performance. Additionally, it is established that other general forms of knowledge, such as parametric and distilled knowledge, enhance multimodal and multilingual knowledge-intensive tasks. This research shows the tangible benefits of diverse knowledge integration and motivates further exploration in this direction.
arxiv情報
著者 | Chenxi Whitehouse |
発行日 | 2024-03-22 17:32:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google