要約
このチュートリアルでは、自然言語生成 (NLG) タスクのクラスであるテキストからテキストへの生成に焦点を当てます。これは、テキストの一部を入力として受け取り、特定の基準 (読みやすさなど) に従って改善されたリビジョンを生成します。
または言語スタイル)、元の意味とテキストの長さをほとんど保持しています。
これには、テキストの簡略化、言い換えの生成、スタイルの転送など、多くの便利なアプリケーションが含まれます。テキストの要約や自由形式のテキスト補完 (ストーリーなど) とは対照的に、このチュートリアルで説明するテキストからテキストへの生成タスクは次のとおりです。
意味の一貫性と対象を絞った言語スタイルの点で、より制約が厳しくなります。
このレベルの制御により、これらのタスクは、意味的に適切でスタイル的に適切なテキストを生成するモデルの能力を研究するための理想的なテストベッドになります。
さらに、これらのタスクは、語彙および構文の変換、文体制御、および事実知識の遵守の複雑な組み合わせを一度に必要とするため、技術的な観点から見ても興味深いものです。
このチュートリアルは、テキストの簡素化と改訂に特に焦点を当て、データ、モデル、人間と AI のコラボレーション、評価の 4 つの主要な側面から最先端の自然言語生成研究の概要を提供することを目的としています。
いくつかの重要な最近の進歩について議論し、紹介します。(1) 非遡及的アプローチの使用。
(2) 微調整から大規模な言語モデルによるプロンプトへの移行。
(3) 新しい学習可能な指標ときめ細かい人間評価フレームワークの開発。
(4) 英語以外の言語に関する一連の研究とデータセットが増加している。
(5) 現実世界のライティングアシスタントシステムを作成するための、HCI+NLP+アクセシビリティの学際的研究の台頭。
要約(オリジナル)
In this tutorial, we focus on text-to-text generation, a class of natural language generation (NLG) tasks, that takes a piece of text as input and then generates a revision that is improved according to some specific criteria (e.g., readability or linguistic styles), while largely retaining the original meaning and the length of the text. This includes many useful applications, such as text simplification, paraphrase generation, style transfer, etc. In contrast to text summarization and open-ended text completion (e.g., story), the text-to-text generation tasks we discuss in this tutorial are more constrained in terms of semantic consistency and targeted language styles. This level of control makes these tasks ideal testbeds for studying the ability of models to generate text that is both semantically adequate and stylistically appropriate. Moreover, these tasks are interesting from a technical standpoint, as they require complex combinations of lexical and syntactical transformations, stylistic control, and adherence to factual knowledge, — all at once. With a special focus on text simplification and revision, this tutorial aims to provide an overview of the state-of-the-art natural language generation research from four major aspects — Data, Models, Human-AI Collaboration, and Evaluation — and to discuss and showcase a few significant and recent advances: (1) the use of non-retrogressive approaches; (2) the shift from fine-tuning to prompting with large language models; (3) the development of new learnable metric and fine-grained human evaluation framework; (4) a growing body of studies and datasets on non-English languages; (5) the rise of HCI+NLP+Accessibility interdisciplinary research to create real-world writing assistant systems.
arxiv情報
著者 | Yao Dou,Philippe Laban,Claire Gardent,Wei Xu |
発行日 | 2023-10-05 20:26:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google