Progressive Document-level Text Simplification via Large Language Models

要約

テキストの簡略化に関する研究は、主に語彙および文レベルの変更に焦点を当ててきました。
長いドキュメントレベルの簡略化 (DS) は、まだ比較的研究されていません。
ChatGPT のような大規模言語モデル (LLM) は、多くの自然言語処理タスクにおいて優れています。
ただし、DS を単なる文書の要約として扱うことが多いため、DS タスクのパフォーマンスは満足のいくものではありません。
DS タスクの場合、生成された長いシーケンスは、元の文書全体との一貫性を維持するだけでなく、談話、文、単語レベルの簡略化を含む適度な簡略化操作を完了する必要があります。
人間の編集者は、階層的な複雑性の簡素化戦略を採用して文書を簡素化します。
この研究では、LLM を使用した多段階コラボレーションの利用を通じて、この戦略をシミュレーションすることを詳しく調査します。
我々は、談話レベル、トピックレベル、語彙レベルの単純化を含むタスクを階層的に分解することによる漸進的単純化手法(ProgDS)を提案します。
実験結果は、ProgDS が既存の小規模モデルや LLM による直接プロンプトよりも大幅に優れたパフォーマンスを示し、文書簡素化タスクにおける最先端の技術を進歩させていることを示しています。

要約(オリジナル)

Research on text simplification has primarily focused on lexical and sentence-level changes. Long document-level simplification (DS) is still relatively unexplored. Large Language Models (LLMs), like ChatGPT, have excelled in many natural language processing tasks. However, their performance on DS tasks is unsatisfactory, as they often treat DS as merely document summarization. For the DS task, the generated long sequences not only must maintain consistency with the original document throughout, but complete moderate simplification operations encompassing discourses, sentences, and word-level simplifications. Human editors employ a hierarchical complexity simplification strategy to simplify documents. This study delves into simulating this strategy through the utilization of a multi-stage collaboration using LLMs. We propose a progressive simplification method (ProgDS) by hierarchically decomposing the task, including the discourse-level, topic-level, and lexical-level simplification. Experimental results demonstrate that ProgDS significantly outperforms existing smaller models or direct prompting with LLMs, advancing the state-of-the-art in the document simplification task.

arxiv情報

著者 Dengzhao Fang,Jipeng Qiang,Yi Zhu,Yunhao Yuan,Wei Li,Yan Liu
発行日 2025-01-07 15:14:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク