Sim-GPT: Text Similarity via GPT Annotated Data

要約

テキスト類似性スコアを備えた高品質のラベル付き文ペアの大規模なコレクションが不足しているため、セマンティック テキスト類似性 (STS) に対する既存のアプローチは、主にテキスト類似性と部分的にのみ相関する教師なし手法またはトレーニング信号 (例: NLI) に依存しています。
ベースのデータセット。
この問題に取り組むために、この論文では、GPT 注釈付きデータ (略して Sim-GPT) を介してテキストの類似性を測定する戦略を提案します。
Sim-GPT の中心となるアイデアは、GPT-4 を使用して STS ラベル付きのデータを生成し、それに基づいて STS モデルがトレーニングされることです。
Sim-GPT フレームワークは LLM を利用して、STS のトレーニング信号の不足のギャップを埋める、信頼性の高い注釈付きデータを大量に提供します。
Sim-GPT は、BERT または RoBERTa をバックボーンとして使用して 1 回生成されたデータセットでトレーニングされます。これにより、センテンス ペアごとに LLM を繰り返し呼び出す場合と比較して、コストと速度が長期的に節約されます。
GPT-4 (371K) の例でトレーニングされた Sim-GPT は、広く使用されている 7 つの STS ベンチマークで SOTA パフォーマンスをもたらします。教師あり SimCSE に対して +0.99、現在の SOTA PromCSE モデルに対して +0.42 です。
この分野のさらなる進歩を促進するために、私たちは両方のモデルと GPT-4 の 371K 注釈付きサンプルをリリースします。
コード、モデル、注釈付きデータは、https://github.com/ShuheWang1998/Sim-GPT から入手できます。

要約(オリジナル)

Due to the lack of a large collection of high-quality labeled sentence pairs with textual similarity scores, existing approaches for Semantic Textual Similarity (STS) mostly rely on unsupervised techniques or training signals that are only partially correlated with textual similarity, e.g., NLI-based datasets. To tackle this issue, in this paper, we propose the strategy of measuring text similarity via GPT annotated data (Sim-GPT for short). The core idea of Sim-GPT is to generate data with STS labels using GPT-4, based on which an STS model is trained. Sim-GPT framework utilizes LLMs to provide a substantial amount of reliable annotated data filling the gap of the lack of training signals for STS. Sim-GPT is trained on a one-time generated dataset using BERT or RoBERTa as the backbone, which offers long-term savings in cost and speed compared to repeatedly invoking LLMs for each sentence pair. Trained on the examples from GPT-4 (371K), Sim-GPT yields SOTA performances on the widely-used seven STS benchmarks: +0.99 over supervised-SimCSE, and +0.42 over the current SOTA PromCSE model. To encourage further advancements of the field, we release both models and the 371K annotated examples from GPT-4. Code, models and annotated data are available at: https://github.com/ShuheWang1998/Sim-GPT.

arxiv情報

著者 Shuhe Wang,Beiming Cao,Shengyu Zhang,Xiaoya Li,Jiwei Li,Fei Wu,Guoyin Wang,Eduard Hovy
発行日 2023-12-12 08:04:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク