Simplifying Scholarly Abstracts for Accessible Digital Libraries

要約

知識普及の最前線に立つデジタル ライブラリは、科学文献の膨大なコレクションを管理しています。
ただし、これらの学術著作には専門用語が多く含まれており、一般向けではなく専門分野の専門家向けに仕立てられています。
私たちは図書館員として、読書レベルが低い人を含む多様な利用者にサービスを提供するよう努めています。
単なるアクセスを超えてサービスを拡張するために、私たちは言語モデルを微調整して学術要旨をより理解しやすいバージョンに書き換えることを提案します。これにより、要求に応じて学術文献にアクセスしやすくなります。
私たちは、学術的な要約を簡素化するためのモデルをトレーニングするために特別に設計されたコーパスを導入することから始めました。
このコーパスは、さまざまな分野からの 3,000 組を超える要約と重要な記述で構成されています。
次に、このコーパスを使用して 4 つの言語モデルを微調整しました。
その後、モデルからの出力は、アクセシビリティと意味論的一貫性について定量的に検査され、言語の品質、忠実性、完全性については定性的に検査されました。
私たちの調査結果では、結果として得られるモデルは、元のコンテンツへの忠実性を維持しながら、読みやすさを 3 学年以上向上させることができることを示しています。
商用の最先端モデルが依然として優位性を保っていますが、当社のモデルははるかにコンパクトで、手頃な方法でローカルに展開でき、商用モデルの使用に伴うプライバシーの懸念を軽減します。
私たちはこの取り組みを、より包括的でアクセスしやすい図書館への一歩として、若い読者や大学の学位を持たない読者に対するサービスを向上させることを構想しています。

要約(オリジナル)

Standing at the forefront of knowledge dissemination, digital libraries curate vast collections of scientific literature. However, these scholarly writings are often laden with jargon and tailored for domain experts rather than the general public. As librarians, we strive to offer services to a diverse audience, including those with lower reading levels. To extend our services beyond mere access, we propose fine-tuning a language model to rewrite scholarly abstracts into more comprehensible versions, thereby making scholarly literature more accessible when requested. We began by introducing a corpus specifically designed for training models to simplify scholarly abstracts. This corpus consists of over three thousand pairs of abstracts and significance statements from diverse disciplines. We then fine-tuned four language models using this corpus. The outputs from the models were subsequently examined both quantitatively for accessibility and semantic coherence, and qualitatively for language quality, faithfulness, and completeness. Our findings show that the resulting models can improve readability by over three grade levels, while maintaining fidelity to the original content. Although commercial state-of-the-art models still hold an edge, our models are much more compact, can be deployed locally in an affordable manner, and alleviate the privacy concerns associated with using commercial models. We envision this work as a step toward more inclusive and accessible libraries, improving our services for young readers and those without a college degree.

arxiv情報

著者 Haining Wang,Jason Clark
発行日 2024-08-07 16:55:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.DL パーマリンク