ARTIST: ARTificial Intelligence for Simplified Text

要約

複雑なテキストは、多くの国民にとって、公開情報や知識にアクセスする際の大きな障壁となっています。
テキストの単純化は手動で行われることが多いですが、元の意味を維持しながらテキストの言語の複雑さを軽減することを目的とした重要な自然言語処理タスクです。
生成人工知能 (AI) の最近の進歩により、語彙レベルと構文レベルの両方でテキストの自動簡略化が可能になりました。
ただし、アプリケーションは英語に焦点を当てていることが多いため、オランダ語などの低リソース言語に対する生成 AI 技術の有効性についてはほとんど理解されていません。
このため、私たちはテキスト簡略化に生成テクノロジを適用する利点と限界を理解するために実証研究を実施し、次の成果を提供します。 1) 最先端の生成テクノロジを調整する構成可能なテキスト簡略化パイプラインの設計と実装
テキスト簡略化モデル、ドメインとリーダーの適応、視覚化モジュール。
2) 洞察と学んだ教訓。文化的および常識的な知識を扱う際の課題を明らかにしながら、テキストの自動簡略化の長所を示します。
これらの成果は、オランダ語のテキスト簡略化の探求における第一歩を表し、研究と実践の両方における将来の取り組みに光を当てています。

要約(オリジナル)

Complex text is a major barrier for many citizens when accessing public information and knowledge. While often done manually, Text Simplification is a key Natural Language Processing task that aims for reducing the linguistic complexity of a text while preserving the original meaning. Recent advances in Generative Artificial Intelligence (AI) have enabled automatic text simplification both on the lexical and syntactical levels. However, as applications often focus on English, little is understood about the effectiveness of Generative AI techniques on low-resource languages such as Dutch. For this reason, we carry out empirical studies to understand the benefits and limitations of applying generative technologies for text simplification and provide the following outcomes: 1) the design and implementation for a configurable text simplification pipeline that orchestrates state-of-the-art generative text simplification models, domain and reader adaptation, and visualisation modules; 2) insights and lessons learned, showing the strengths of automatic text simplification while exposing the challenges in handling cultural and commonsense knowledge. These outcomes represent a first step in the exploration of Dutch text simplification and shed light on future endeavours both for research and practice.

arxiv情報

著者 Lorenzo Corti,Jie Yang
発行日 2023-08-25 16:06:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク