Learning High-Quality and General-Purpose Phrase Representations

要約

フレーズ表現はデータ サイエンスと自然言語処理において重要な役割を果たし、エンティティの配置、レコードのリンケージ、ファジー結合、言い換え分類などのさまざまなタスクに利益をもたらします。
現在の最先端の方法では、対照学習を使用して、フレーズ埋め込み用の事前トレーニング済み言語モデルを微調整します。
ただし、改善の余地がある領域も特定しました。
まず、これらの事前トレーニングされたモデルは不必要に複雑になる傾向があり、文脈文を含むコーパスで事前トレーニングする必要があります。
第 2 に、フレーズのタイプと形態を活用することで、より正確かつより柔軟なフレーズ表現が得られます。
私たちは、文脈に依存しない方法でフレーズ表現を学習するための改良されたフレームワークを提案します。
このフレームワークは補助タスクとしてフレーズ タイプ分類を採用し、文字レベルの情報をフレーズ表現により効果的に組み込みます。
さらに、トレーニング サンプルの多様性を高めるために、データ拡張の 3 つの粒度を設計します。
幅広いタスクにわたる私たちの実験では、私たちのアプローチが以前の方法と比較して優れたフレーズ埋め込みを生成しながら、より小さなモデルサイズを必要とすることが示されました。
[PEARL-small]: https://huggingface.co/Lihuchen/pearl_small;
[PEARLベース]: https://huggingface.co/Lihuchen/pearl_base;
[コードとデータセット]: https://github.com/tigerchen52/PEARL

要約(オリジナル)

Phrase representations play an important role in data science and natural language processing, benefiting various tasks like Entity Alignment, Record Linkage, Fuzzy Joins, and Paraphrase Classification. The current state-of-the-art method involves fine-tuning pre-trained language models for phrasal embeddings using contrastive learning. However, we have identified areas for improvement. First, these pre-trained models tend to be unnecessarily complex and require to be pre-trained on a corpus with context sentences. Second, leveraging the phrase type and morphology gives phrase representations that are both more precise and more flexible. We propose an improved framework to learn phrase representations in a context-free fashion. The framework employs phrase type classification as an auxiliary task and incorporates character-level information more effectively into the phrase representation. Furthermore, we design three granularities of data augmentation to increase the diversity of training samples. Our experiments across a wide range of tasks show that our approach generates superior phrase embeddings compared to previous methods while requiring a smaller model size. [PEARL-small]: https://huggingface.co/Lihuchen/pearl_small; [PEARL-base]: https://huggingface.co/Lihuchen/pearl_base; [Code and Dataset]: https://github.com/tigerchen52/PEARL

arxiv情報

著者 Lihu Chen,Gaël Varoquaux,Fabian M. Suchanek
発行日 2024-02-22 13:46:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク