Automated Literature Review Using NLP Techniques and LLM-Based Retrieval-Augmented Generation

要約

この研究では、いくつかの自然言語処理 (NLP) 技術と大規模言語モデル (LLM) による検索拡張生成 (RAG) を使用して文献レビューの生成を自動化する複数のアプローチを紹介し、比較します。
研究論文の数は増え続けるため、手動による文献レビューには大きな課題が生じています。
その結果、自動化への需要が高まりました。
入力として PDF ファイルのみから文献レビューを自動的に生成できるシステムを開発することが、この研究作業の主な目的です。
周波数ベースの手法 (spaCy)、トランスフォーマー モデル (Simple T5)、大規模言語モデル (GPT-3.5-turbo) を使用した検索拡張生成 (RAG) など、いくつかの自然言語処理 (NLP) 戦略の有効性
、主な目的を達成していると評価されます。
この研究実験には SciTLDR データセットが選択され、文献レビューを自動生成するための 3 つの異なるシステムを実装するために 3 つの異なる技術が利用されています。
ROUGE スコアは 3 つのシステムすべての評価に使用されます。
評価に基づくと、大規模言語モデル GPT-3.5-turbo は最高の ROUGE-1 スコア (0.364) を達成しました。
トランスモデルは 2 位で、spaCy は最下位です。
最後に、大規模な言語モデルに基づいて最適なシステムのグラフィカル ユーザー インターフェイスが作成されます。

要約(オリジナル)

This research presents and compares multiple approaches to automate the generation of literature reviews using several Natural Language Processing (NLP) techniques and retrieval-augmented generation (RAG) with a Large Language Model (LLM). The ever-increasing number of research articles provides a huge challenge for manual literature review. It has resulted in an increased demand for automation. Developing a system capable of automatically generating the literature reviews from only the PDF files as input is the primary objective of this research work. The effectiveness of several Natural Language Processing (NLP) strategies, such as the frequency-based method (spaCy), the transformer model (Simple T5), and retrieval-augmented generation (RAG) with Large Language Model (GPT-3.5-turbo), is evaluated to meet the primary objective. The SciTLDR dataset is chosen for this research experiment and three distinct techniques are utilized to implement three different systems for auto-generating the literature reviews. The ROUGE scores are used for the evaluation of all three systems. Based on the evaluation, the Large Language Model GPT-3.5-turbo achieved the highest ROUGE-1 score, 0.364. The transformer model comes in second place and spaCy is at the last position. Finally, a graphical user interface is created for the best system based on the large language model.

arxiv情報

著者 Nurshat Fateh Ali,Md. Mahdi Mohtasim,Shakil Mosharrof,T. Gopi Krishna
発行日 2024-11-27 18:27:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク