StyleDistance: Stronger Content-Independent Style Embeddings with Synthetic Parallel Examples

要約

スタイル表現は、内容に関係なく、類似した書き方のテキストを近くに埋め込み、異なるスタイルのテキストを遠くに埋め込むことを目的としています。
ただし、これらの表現のトレーニングによく使用される対照的なトリプレットは、スタイルとコンテンツの両方が異なる可能性があり、表現内でコンテンツが漏洩する可能性があります。
より強力なコンテンツに依存しないスタイル埋め込みをトレーニングするための新しいアプローチである StyleDistance を紹介します。
大規模な言語モデルを使用して、制御されたスタイルのバリエーションを持つほぼ正確な言い換えの合成データセットを作成し、正確な対比学習のために 40 の異なるスタイル特徴にわたって肯定的な例と否定的な例を生成します。
当社は、人間による評価と自動評価を通じて、合成データと埋め込みの品質を評価します。
StyleDistance は、スタイル埋め込みのコンテンツ独立性を強化し、現実世界のベンチマークに一般化して、ダウンストリーム アプリケーションの主要なスタイル表現を上回るパフォーマンスを発揮します。
私たちのモデルは https://huggingface.co/StyleDistance/style distance で見つけることができます。

要約(オリジナル)

Style representations aim to embed texts with similar writing styles closely and texts with different styles far apart, regardless of content. However, the contrastive triplets often used for training these representations may vary in both style and content, leading to potential content leakage in the representations. We introduce StyleDistance, a novel approach to training stronger content-independent style embeddings. We use a large language model to create a synthetic dataset of near-exact paraphrases with controlled style variations, and produce positive and negative examples across 40 distinct style features for precise contrastive learning. We assess the quality of our synthetic data and embeddings through human and automatic evaluations. StyleDistance enhances the content-independence of style embeddings, which generalize to real-world benchmarks and outperform leading style representations in downstream applications. Our model can be found at https://huggingface.co/StyleDistance/styledistance .

arxiv情報

著者 Ajay Patel,Jiacheng Zhu,Justin Qiu,Zachary Horvitz,Marianna Apidianaki,Kathleen McKeown,Chris Callison-Burch
発行日 2024-10-16 17:25:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク