T-VEC: A Telecom-Specific Vectorization Model with Enhanced Semantic Understanding via Deep Triplet Loss Fine-Tuning

要約

電気通信業界の専門的な語彙と複雑な概念は、標準的な自然言語処理モデルに大きな課題を提示しています。
一般的なテキストの埋め込みは、多くの場合、テレコム固有のセマンティクスをキャプチャできず、ダウンストリームタスクのパフォーマンスを妨げます。
T-VEC(Telecom Vectorization Model)を紹介します。これは、深い微調整を通じてテレコムドメイン向けに調整された新しい埋め込みモデルです。
NetoAIによって開発されたT-VECは、テレコム固有のデータの細心の激しくキュレーションされた大規模なデータセットでトリプレット損失目標を使用して、最先端のGTE-QWEN2-1.5B-Instructモデルを適応させることにより作成されます。
重要なことに、このプロセスには、ベースモデルの338層にわたる重みの大幅な変更が含まれ、ドメイン知識の深い統合を確保し、表面的な適応技術をはるかに超えていました。
体重差分析を介してこの深い変化を定量化します。
重要な貢献は、最初の専用テレコム固有のトークン剤の開発とオープンソーシング(MITライセンス)であり、業界用語の処理を強化します。
T-VECは、確立されたモデルと比較して主要な平均MTEBスコア(0.825)を達成し、内部のテレコム固有のトリプレット評価ベンチマークで非常に優れたパフォーマンス(0.9380対0.07未満)を実証し、埋め込みの分離によって視覚的に整理されたドメイン固有のニュアンスの例外的な把握を示しています。
この作業は、テレコムAIイノベーションの最前線にNetoaiを配置し、コミュニティに強力で深く適応したオープンソースツールを提供します。

要約(オリジナル)

The specialized vocabulary and complex concepts of the telecommunications industry present significant challenges for standard Natural Language Processing models. Generic text embeddings often fail to capture telecom-specific semantics, hindering downstream task performance. We introduce T-VEC (Telecom Vectorization Model), a novel embedding model tailored for the telecom domain through deep fine-tuning. Developed by NetoAI, T-VEC is created by adapting the state-of-the-art gte-Qwen2-1.5B-instruct model using a triplet loss objective on a meticulously curated, large-scale dataset of telecom-specific data. Crucially, this process involved substantial modification of weights across 338 layers of the base model, ensuring deep integration of domain knowledge, far exceeding superficial adaptation techniques. We quantify this deep change via weight difference analysis. A key contribution is the development and open-sourcing (MIT License) of the first dedicated telecom-specific tokenizer, enhancing the handling of industry jargon. T-VEC achieves a leading average MTEB score (0.825) compared to established models and demonstrates vastly superior performance (0.9380 vs. less than 0.07) on our internal telecom-specific triplet evaluation benchmark, indicating an exceptional grasp of domain-specific nuances, visually confirmed by improved embedding separation. This work positions NetoAI at the forefront of telecom AI innovation, providing the community with a powerful, deeply adapted, open-source tool.

arxiv情報

著者 Vignesh Ethiraj,Sidhanth Menon,Divya Vijay
発行日 2025-04-23 07:10:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL パーマリンク