Exploring Large Language Models to generate Easy to Read content

要約

テキストのアクセシビリティと理解しやすさを確保することは、特に、Web ページ、新聞、管理業務、健康文書など、さまざまな媒体にわたる情報にアクセスする際に課題に直面している認知障害や知的障害を持つ個人にとって、不可欠な目標です。
Easy to Read や Plain Language ガイドラインなどの取り組みは、複雑なテキストを簡素化することを目的としています。
ただし、これらのガイドラインの標準化は依然として困難であり、多くの場合、手動プロセスが必要になります。
この研究では、人工知能 (AI) と自然言語処理 (NLP) のアプローチを活用して、スペイン語のテキストを読みやすい形式に体系的に簡略化するための探索的調査を紹介します。特に、テキストの簡略化、特に生成時のラージ言語モデル (LLM) の利用に焦点を当てています。
読みやすい内容。
この研究は、Easy To Read 形式に適応されたスペイン語の対訳コーパスを提供しており、テキスト簡略化システムのトレーニングとテストのための貴重なリソースとして機能します。
さらに、LLM と収集されたコーパスを使用したいくつかのテキスト簡略化実験が実施され、読みやすいコンテンツを生成するための Llama2 モデルの微調整とテストが行​​われます。
読みやすいコンテンツへのテキスト適応の専門家による定性評価が実行され、自動的に簡略化されたテキストが評価されます。
この研究は、認知障害を持つ個人のテキスト アクセシビリティの向上に貢献し、責任を持ってエネルギー使用量を管理しながら LLM を活用するための有望な戦略を強調しています。

要約(オリジナル)

Ensuring text accessibility and understandability are essential goals, particularly for individuals with cognitive impairments and intellectual disabilities, who encounter challenges in accessing information across various mediums such as web pages, newspapers, administrative tasks, or health documents. Initiatives like Easy to Read and Plain Language guidelines aim to simplify complex texts; however, standardizing these guidelines remains challenging and often involves manual processes. This work presents an exploratory investigation into leveraging Artificial Intelligence (AI) and Natural Language Processing (NLP) approaches to systematically simplify Spanish texts into Easy to Read formats, with a focus on utilizing Large Language Models (LLMs) for simplifying texts, especially in generating Easy to Read content. The study contributes a parallel corpus of Spanish adapted for Easy To Read format, which serves as a valuable resource for training and testing text simplification systems. Additionally, several text simplification experiments using LLMs and the collected corpus are conducted, involving fine-tuning and testing a Llama2 model to generate Easy to Read content. A qualitative evaluation, guided by an expert in text adaptation for Easy to Read content, is carried out to assess the automatically simplified texts. This research contributes to advancing text accessibility for individuals with cognitive impairments, highlighting promising strategies for leveraging LLMs while responsibly managing energy usage.

arxiv情報

著者 Paloma Martínez,Lourdes Moreno,Alberto Ramos
発行日 2024-07-29 14:30:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC パーマリンク