EnterpriseEM: Fine-tuned Embeddings for Enterprise Semantic Search

要約

企業は、効率的な情報検索を妨げる独自の非構造化データの管理という重大な課題に取り組んでいます。
これにより、従業員の問い合わせに対処するために関連する洞察を適切に抽出するように設計された、AI を活用した情報検索ソリューションの出現につながりました。
これらのソリューションは、多くの場合、事前トレーニングされた埋め込みモデルと生成モデルを基礎コンポーネントとして利用します。
事前トレーニングされたエンベディングは、元のトレーニング目的に基づいて近接性または不一致を示す可能性がありますが、エンタープライズ固有のデータの固有の特性と完全には一致しない可能性があり、エンタープライズ環境の取得目標との最適化に次ぐ一致が生じる可能性があります。
このペーパーでは、データの準備からモデルの微調整と評価までのプロセス全体をカバーし、事前トレーニングされた埋め込みモデルをエンタープライズ環境にコンテキスト化するための包括的な方法論を提案します。
エンベディングを企業内で一般的な検索タスクにさらに適合させることで、情報検索ソリューションのパフォーマンスを向上させることを目指しています。
微調整のプロセス、検索精度への影響、企業情報管理に対する潜在的な利点について説明します。
私たちの調査結果は、企業環境における検索結果の精度と関連性を向上させる上で、微調整された埋め込みモデルの有効性を示しています。

要約(オリジナル)

Enterprises grapple with the significant challenge of managing proprietary unstructured data, hindering efficient information retrieval. This has led to the emergence of AI-driven information retrieval solutions, designed to adeptly extract relevant insights to address employee inquiries. These solutions often leverage pre-trained embedding models and generative models as foundational components. While pre-trained embeddings may exhibit proximity or disparity based on their original training objectives, they might not fully align with the unique characteristics of enterprise-specific data, leading to suboptimal alignment with the retrieval goals of enterprise environments. In this paper, we propose a comprehensive methodology for contextualizing pre-trained embedding models to enterprise environments, covering the entire process from data preparation to model fine-tuning and evaluation. By adapting the embeddings to better suit the retrieval tasks prevalent in enterprises, we aim to enhance the performance of information retrieval solutions. We discuss the process of fine-tuning, its effect on retrieval accuracy, and the potential benefits for enterprise information management. Our findings demonstrate the efficacy of fine-tuned embedding models in improving the precision and relevance of search results in enterprise settings.

arxiv情報

著者 Kamalkumar Rathinasamy,Jayarama Nettar,Amit Kumar,Vishal Manchanda,Arun Vijayakumar,Ayush Kataria,Venkateshprasanna Manjunath,Chidambaram GS,Jaskirat Singh Sodhi,Shoeb Shaikh,Wasim Akhtar Khan,Prashant Singh,Tanishq Dattatray Ige,Vipin Tiwari,Rajab Ali Mondal,Harshini K,S Reka,Chetana Amancharla,Faiz ur Rahman,Harikrishnan P A,Indraneel Saha,Bhavya Tiwary,Navin Shankar Patel,Pradeep T S,Balaji A J,Priyapravas,Mohammed Rafee Tarafdar
発行日 2024-09-27 12:19:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, I.2.7 パーマリンク