要約
自然言語のベクトル表現は、検索アプリケーションで広く使用されています。
最近、ラベルのないデータからテキスト表現を学習するために、対照学習に基づくさまざまな方法が提案されています。
同じテキストの最小限に摂動された埋め込み間の位置合わせを最大化し、より広範なコーパス全体にわたる埋め込みの均一な分布を促進することによって。
別の方法として、テキストとその句構成要素の構成の間の整合性を最大化することを提案します。
私たちはこの目的のいくつかの実現を検討し、それぞれのケースにおける表現への影響を詳しく説明します。
意味論的なテキスト類似性タスクの実験結果では、ベースラインを超えて最先端のアプローチと同等の改善が見られました。
さらに、この取り組みは、補助的なトレーニング目標や追加のネットワーク パラメータにコストを発生させることなくこれを実現した初めての取り組みです。
要約(オリジナル)
Vector representations of natural language are ubiquitous in search applications. Recently, various methods based on contrastive learning have been proposed to learn textual representations from unlabelled data; by maximizing alignment between minimally-perturbed embeddings of the same text, and encouraging a uniform distribution of embeddings across a broader corpus. Differently, we propose maximizing alignment between texts and a composition of their phrasal constituents. We consider several realizations of this objective and elaborate the impact on representations in each case. Experimental results on semantic textual similarity tasks show improvements over baselines that are comparable with state-of-the-art approaches. Moreover, this work is the first to do so without incurring costs in auxiliary training objectives or additional network parameters.
arxiv情報
著者 | Sachin J. Chanchani,Ruihong Huang |
発行日 | 2023-07-14 14:39:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google