要約
このペーパーでは、法的情報検索(LIR)のためのブラジルのポルトガルのデータセットであるJuristcuを紹介します。
データセットは自由に入手でき、ブラジル連邦口座裁判所からの16,045の法学的文書と、関連性の判断が注釈された150のクエリで構成されています。
クエリ関連の注釈を備えたポルトガル語のLIRデータセットの希少性に対処します。
クエリは、実際のユーザーキーワードベースのクエリ、合成キーワードベースのクエリ、合成質問ベースのクエリの3つのグループに編成されます。
関連性の判断は、LLMベースのスコアリングとエキスパートドメイン検証を組み合わせたハイブリッドアプローチを通じて生成されました。
語彙検索(ドキュメント拡張方法)とセマンティック検索(BERTベースおよびOpenaI埋め込み)を使用して、14の実験でjuristcuを使用しました。
ドキュメントの拡張方法は、このデータセットでの標準BM25検索のパフォーマンスを大幅に改善し、短いキーワードベースのクエリを評価するときにP@10、R@10、およびNDCG@10メトリックで45%を超える改善点を示しています。
埋め込みモデルの中で、OpenAIモデルは最良の結果を生み出し、P@10、R@10、およびNDCG@10メトリックで約70%の改善が行われ、これらの密な埋め込みはこのドメインでセマンティックな関係をキャプチャし、Lexical用語での信頼を超えています。
検索システムの評価に適したポルトガル語のIRリサーチコミュニティにデータセットを提供することに加えて、結果はブラジルの市民に非常に関連する検索システムの強化にも貢献しています。
要約(オリジナル)
This paper introduces JurisTCU, a Brazilian Portuguese dataset for legal information retrieval (LIR). The dataset is freely available and consists of 16,045 jurisprudential documents from the Brazilian Federal Court of Accounts, along with 150 queries annotated with relevance judgments. It addresses the scarcity of Portuguese-language LIR datasets with query relevance annotations. The queries are organized into three groups: real user keyword-based queries, synthetic keyword-based queries, and synthetic question-based queries. Relevance judgments were produced through a hybrid approach combining LLM-based scoring with expert domain validation. We used JurisTCU in 14 experiments using lexical search (document expansion methods) and semantic search (BERT-based and OpenAI embeddings). We show that the document expansion methods significantly improve the performance of standard BM25 search on this dataset, with improvements exceeding 45% in P@10, R@10, and nDCG@10 metrics when evaluating short keyword-based queries. Among the embedding models, the OpenAI models produced the best results, with improvements of approximately 70% in P@10, R@10, and nDCG@10 metrics for short keyword-based queries, suggesting that these dense embeddings capture semantic relationships in this domain, surpassing the reliance on lexical terms. Besides offering a dataset for the Portuguese-language IR research community, suitable for evaluating search systems, the results also contribute to enhancing a search system highly relevant to Brazilian citizens.
arxiv情報
著者 | Leandro Carísio Fernandes,Leandro dos Santos Ribeiro,Marcos Vinícius Borela de Castro,Leonardo Augusto da Silva Pacheco,Edans Flávius de Oliveira Sandes |
発行日 | 2025-03-11 12:39:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google