要約
この作業では、テキストの特定の属性を強調表示して、ユーザーの指示に適応する動的なテキスト埋め込みを生成する命令に従うテキスト埋め込みという名前の重要なタスクを調査します。
最近の進歩にもかかわらず、既存のアプローチは、新しい指導ごとにコーパス全体を再エンコードする必要があるため、重要な計算オーバーヘッドに悩まされています。
この課題に対処するために、ガイド付きスペース変換に基づいて、新しい指導に従うテキスト埋め込みフレームワークであるGSTRANSFORMを提案します。
私たちの重要な観察は、命令関連情報は本質的に一般的な埋め込みでエンコードされているが、十分に活用されていないことです。
各命令のコーパスを繰り返しエンコードする代わりに、GSTRANSFORMは、命令範囲のラベル注釈を備えた少量のテキストデータに導かれ、ユーザー命令に合わせて事前に計算された埋め込みをリアルタイムで適応させる軽量変換メカニズムです。
9つの現実世界のデータセットにわたって3つの命令認識下流タスクで広範な実験を実施し、GSTRANSFORMが最先端の方法で品質を埋め込む命令に応じたテキストを改善しながら、大規模なデータセットでのリアルタイム処理で6〜300Xの劇的なスピードアップを達成することを実証します。
ソースコードは、https://github.com/ingchaojiefeng/gstransformで入手できます。
要約(オリジナル)
In this work, we investigate an important task named instruction-following text embedding, which generates dynamic text embeddings that adapt to user instructions, highlighting specific attributes of text. Despite recent advancements, existing approaches suffer from significant computational overhead, as they require re-encoding the entire corpus for each new instruction. To address this challenge, we propose GSTransform, a novel instruction-following text embedding framework based on Guided Space Transformation. Our key observation is that instruction-relevant information is inherently encoded in generic embeddings but remains underutilized. Instead of repeatedly encoding the corpus for each instruction, GSTransform is a lightweight transformation mechanism that adapts pre-computed embeddings in real time to align with user instructions, guided by a small amount of text data with instruction-focused label annotation. We conduct extensive experiments on three instruction-awareness downstream tasks across nine real-world datasets, demonstrating that GSTransform improves instruction-following text embedding quality over state-of-the-art methods while achieving dramatic speedups of 6~300x in real-time processing on large-scale datasets. The source code is available at https://github.com/YingchaojieFeng/GSTransform.
arxiv情報
著者 | Yingchaojie Feng,Yiqun Sun,Yandong Sun,Minfeng Zhu,Qiang Huang,Anthony K. H. Tung,Wei Chen |
発行日 | 2025-05-30 16:16:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google