Testing different Log Bases For Vector Model Weighting Technique

要約

情報検索システムは、ユーザーが送信したクエリに基づいて関連文書を取得します。
文書には最初にインデックスが付けられ、用語頻度 (TF) と逆文書頻度 (IDF) の積である TFIDF と呼ばれる重み付け手法を使用して、文書内の単語に重みが割り当てられます。
TF は、文書内の用語の出現数を表します。
IDF は、その用語がすべてのドキュメントにわたって一般的であるか、まれであるかを測定します。
これは、システム内の文書の総数をその用語を含む文書の数で割り、商の対数を計算することによって計算されます。
デフォルトでは、底 10 を使用して対数を計算します。
このペーパーでは、IDF を計算するために 0.1 から 100.0 までの対数ベースの範囲を使用して、この重み付け手法をテストします。
ベクトル モデル重み付け手法のさまざまな対数ベースをテストすることは、さまざまな重み付け値でのシステムのパフォーマンスを理解することの重要性を強調することになります。
私たちは、科学者がデータ情報検索システムの実験のために明示的に集めた MED、CRAN、NPL、LISA、および CISI テスト コレクションの文書を使用します。

要約(オリジナル)

Information retrieval systems retrieves relevant documents based on a query submitted by the user. The documents are initially indexed and the words in the documents are assigned weights using a weighting technique called TFIDF which is the product of Term Frequency (TF) and Inverse Document Frequency (IDF). TF represents the number of occurrences of a term in a document. IDF measures whether the term is common or rare across all documents. It is computed by dividing the total number of documents in the system by the number of documents containing the term and then computing the logarithm of the quotient. By default, we use base 10 to calculate the logarithm. In this paper, we are going to test this weighting technique by using a range of log bases from 0.1 to 100.0 to calculate the IDF. Testing different log bases for vector model weighting technique is to highlight the importance of understanding the performance of the system at different weighting values. We use the documents of MED, CRAN, NPL, LISA, and CISI test collections that scientists assembled explicitly for experiments in data information retrieval systems.

arxiv情報

著者 Kamel Assaf
発行日 2023-07-12 15:00:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク