要約
セマンティックテキスト表現は、自然言語処理の分野における基本的なタスクです。
既存のテキストの埋め込み(SimcseやLLM2VECなど)は優れたパフォーマンスを実証していますが、各次元の値を追跡して解釈することは困難です。
古典的なまばらな解釈可能な埋め込みとして、パフォーマンスが低いことに苦しんでいます。
最近、ベナラ等。
(2024)一連の質問への回答に基づいて「0/1」埋め込みを形成する大きな言語モデルを使用して、解釈可能なテキスト埋め込みを提案します。
これらの解釈可能なテキストの埋め込みは、通常、高次元(10,000を超える)です。
この作業では、相対表現(LDIR)を備えた低次元(500未満)の密で解釈可能なテキスト埋め込みを提案します。
その寸法の数値は、最も遠いポイントサンプリングを介した異なるアンカーテキストに対するセマンティックな関連性を示しており、セマンティック表現と一定レベルのトレーサビリティと解釈可能性の両方を提供します。
複数のセマンティックテキストの類似性、検索、およびクラスタリングタスクでLDIRを検証します。
広範な実験結果は、LDIRがブラックボックスベースラインモデルの近くで実行し、より少ない次元の解釈可能な埋め込みベースラインよりも優れていることを示しています。
コードはhttps://github.com/szu-tera/ldirで入手できます。
要約(オリジナル)
Semantic text representation is a fundamental task in the field of natural language processing. Existing text embedding (e.g., SimCSE and LLM2Vec) have demonstrated excellent performance, but the values of each dimension are difficult to trace and interpret. Bag-of-words, as classic sparse interpretable embeddings, suffers from poor performance. Recently, Benara et al. (2024) propose interpretable text embeddings using large language models, which forms ‘0/1’ embeddings based on responses to a series of questions. These interpretable text embeddings are typically high-dimensional (larger than 10,000). In this work, we propose Low-dimensional (lower than 500) Dense and Interpretable text embeddings with Relative representations (LDIR). The numerical values of its dimensions indicate semantic relatedness to different anchor texts through farthest point sampling, offering both semantic representation as well as a certain level of traceability and interpretability. We validate LDIR on multiple semantic textual similarity, retrieval, and clustering tasks. Extensive experimental results show that LDIR performs close to the black-box baseline models and outperforms the interpretable embeddings baselines with much fewer dimensions. Code is available at https://github.com/szu-tera/LDIR.
arxiv情報
著者 | Yile Wang,Zhanyu Shen,Hui Huang |
発行日 | 2025-05-15 14:45:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google