Khmer Semantic Search Engine: Digital Information Access and Document Retrieval

要約

検索エンジンのプロセスは、ドキュメントのコンテンツを取得するために非常に重要です。
クメール語文書の場合、重要なキーワードを抽出するツールが必要です。
重要なクメール語コンテンツが毎日生成されているにもかかわらず、カンボジア人は効果的な意味検索ツールがないため、必要な文書を見つけるのに苦労しています。
Google でさえ、クメール語コンテンツについては高い精度を提供できません。
セマンティック検索エンジンは、高度なアルゴリズムを採用してさまざまなコンテンツ タイプを理解することにより、検索結果を改善します。
レポート、記事、ソーシャルメディアフィードバックなどのクメール語デジタルコンテンツの増加に伴い、強化された検索機能が不可欠です。
この研究は、伝統的なクメール語の検索方法を改善するために設計された、最初のクメール語意味検索エンジン (KSE) を提案します。
セマンティック マッチング技術と正式に注釈が付けられたセマンティック コンテンツを利用する当社のツールは、ユーザーのクエリから意味のあるキーワードを抽出し、正確なマッチングを実行し、最もよく一致するオフライン ドキュメントとオンライン URL ドキュメントを提供します。
キーワード抽出とセマンティック検索マッチングに基づいた 2 つのセマンティック検索フレームワークを提案します。
さらに、ドキュメントの追加や手動によるキーワード抽出などのデータ準備のためのツールも開発しました。
パフォーマンスを評価するために、グラウンド トゥルース データセットを作成し、検索とセマンティック検索に関連する問題について議論しました。
私たちの調査結果は、検索語のセマンティクスを理解することで、より正確な結果がどのように得られるかを示しています。

要約(オリジナル)

The search engine process is crucial for document content retrieval. For Khmer documents, a tool is needed to extract essential keywords. Despite the daily generation of significant Khmer content, Cambodians struggle to find necessary documents due to the lack of an effective semantic searching tool. Even Google does not deliver high accuracy for Khmer content. Semantic search engines improve search results by employing advanced algorithms to understand various content types. With the rise in Khmer digital content such as reports, articles, and social media feedback enhanced search capabilities are essential. This research proposes the first Khmer Semantic Search Engine (KSE), designed to improve traditional Khmer search methods. Utilizing semantic matching techniques and formally annotated semantic content, our tool extracts meaningful keywords from user queries performs precise matching, and provides the best matching offline documents and online URL documents. We propose two semantic search frameworks based on keyword extraction and semantic search matching. Additionally, we developed tools for data preparation, including document addition and manual keyword extraction. To evaluate performance, we created a ground truth dataset and discussed issues related to searching and semantic search. Our findings show how understanding search term semantics can lead to more accurate results.

arxiv情報

著者 Nimol Thuon
発行日 2024-06-13 16:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク