要約
テキストの意味の制御および指定された操作を可能にするSmith Smithフレームワークを提案します。
これは、3つの主要な手順で構成されています。1。セマンティックグラフに文を解析する、2。人間が設計したセマンティック操作ルールを適用し、3。操作グラフからテキストを生成します。
最終的なフィルタリングステップ(4.)により、適用された変換の有効性が保証されます。
アプリケーション調査でSmith Smithの有用性を実証するために、それを使用して、テキストの埋め込みモデルに挑戦するハードネガティブペアを生成します。
制御可能な生成により、さまざまなタイプのセマンティックシフトを明確に分離できるようになるため、広く使用されているテキスト埋め込みモデルの特定の長所と短所についてより深い洞察を得ることができ、言語現象が不透明のままである現在のベンチマークの問題にも対処できます。
人間の検証は、スミスの文によって生成された世代が非常に正確であることを確認しています。
要約(オリジナル)
We propose the Sentence Smith framework that enables controlled and specified manipulation of text meaning. It consists of three main steps: 1. Parsing a sentence into a semantic graph, 2. Applying human-designed semantic manipulation rules, and 3. Generating text from the manipulated graph. A final filtering step (4.) ensures the validity of the applied transformation. To demonstrate the utility of Sentence Smith in an application study, we use it to generate hard negative pairs that challenge text embedding models. Since the controllable generation makes it possible to clearly isolate different types of semantic shifts, we can gain deeper insights into the specific strengths and weaknesses of widely used text embedding models, also addressing an issue in current benchmarking where linguistic phenomena remain opaque. Human validation confirms that the generations produced by Sentence Smith are highly accurate.
arxiv情報
著者 | Hongji Li,Andrianos Michail,Reto Gubelmann,Simon Clematide,Juri Opitz |
発行日 | 2025-02-20 17:00:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google