Learning from Litigation: Graphs and LLMs for Retrieval and Reasoning in eDiscovery

要約

電子証拠開示 (eDiscovery) には、法的作成要求に基づいて膨大なコレクションから関連文書を特定することが含まれます。
人工知能 (AI) と自然言語処理 (NLP) の統合により、このプロセスが変革され、ドキュメントのレビューが容易になり、効率と費用対効果が向上しました。
電子情報開示では、BM25 や微調整された事前トレーニング モデルなどの従来のアプローチが一般的ですが、パフォーマンス、計算、解釈可能性の課題に直面しています。
対照的に、Large Language Model (LLM) ベースのメソッドは解釈可能性を優先しますが、パフォーマンスとスループットは犠牲になります。
このペーパーでは、正確な文書関連性予測のための異種グラフベースの手法と、その後の推論のための LLM 駆動アプローチという 2 つの世界の長所を組み合わせたハイブリッド アプローチである DISCOvery Graph (DISCOG) を紹介します。
グラフ表現学習は、埋め込みを生成してリンクを予測し、特定のリクエストのコーパスをランク付けし、LLM が文書の関連性についての推論を提供します。
私たちのアプローチはバランスのとれた分布と不均衡な分布を持つデータセットを処理し、F1 スコア、精度、再現率でベースラインをそれぞれ平均 12%、3%、16% 上回っています。
エンタープライズ環境では、当社のアプローチにより文書レビューのコストが手動プロセスと比較して 99.9%、LLM ベースの分類方法と比較して 95% 大幅に削減されます。

要約(オリジナル)

Electronic Discovery (eDiscovery) involves identifying relevant documents from a vast collection based on legal production requests. The integration of artificial intelligence (AI) and natural language processing (NLP) has transformed this process, helping document review and enhance efficiency and cost-effectiveness. Although traditional approaches like BM25 or fine-tuned pre-trained models are common in eDiscovery, they face performance, computational, and interpretability challenges. In contrast, Large Language Model (LLM)-based methods prioritize interpretability but sacrifice performance and throughput. This paper introduces DISCOvery Graph (DISCOG), a hybrid approach that combines the strengths of two worlds: a heterogeneous graph-based method for accurate document relevance prediction and subsequent LLM-driven approach for reasoning. Graph representational learning generates embeddings and predicts links, ranking the corpus for a given request, and the LLMs provide reasoning for document relevance. Our approach handles datasets with balanced and imbalanced distributions, outperforming baselines in F1-score, precision, and recall by an average of 12%, 3%, and 16%, respectively. In an enterprise context, our approach drastically reduces document review costs by 99.9% compared to manual processes and by 95% compared to LLM-based classification methods

arxiv情報

著者 Sounak Lahiri,Sumit Pai,Tim Weninger,Sanmitra Bhattacharya
発行日 2024-05-29 15:08:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク