要約
制約付きテキストの生成は、特に厳しい制約を扱う場合、依然として困難な作業です。
従来の NLP アプローチでは、意味のある一貫した出力を生成することが優先されます。
また、現在の最先端の方法には、そのようなタスクを効果的に処理するための表現力や制約を満たす機能が欠けていることがよくあります。
最近、CP で制約付き文を生成するアプローチが提案されました (Bonlarron et al、2023)。
MNREAD ルールに基づいて文生成問題を解決するためのこのアドホック モデルは、他のより制約された問題を扱うには計算的にも構造的にも不適切であることが判明しました。
この論文では、これまで扱いにくい問題の多くに取り組むための、より一般的な新しいアプローチを紹介します。ここでは、RADNER ルールに従った非常に扱いにくい文章生成問題を例に説明します。
より正確には、この文書では CPTextGen フレームワークについて説明します。
このフレームワークは、制約付きテキスト生成問題を離散的な組み合わせ最適化問題として考慮します。
これは、言語特性 (n グラムや言語レベルなど) と他のより古典的な制約 (文字数や音節など) を組み合わせる制約プログラミング手法によって解決されます。
最終的には、キュレーション フェーズで、LLM を使用して、混乱度に応じて最適に生成された文を選択できるようになります。
このアプローチの有効性は、より退屈な制約が課せられた新しいテキスト生成問題、つまり象徴的な RADNER 文問題に取り組むことによって実証されます。
この問題は、視覚および臨床研究での使用によって定義された一連の非常に厳密なルールを遵守した文章を生成することを目的としています。
私たちの CP ベースのアプローチのおかげで、多くの新しい強く制約された文の生成に成功しました。
これは、不当に制約されたテキスト生成シナリオを処理できるこのアプローチの可能性を強調しています。
要約(オリジナル)
Constrained text generation remains a challenging task, particularly when dealing with hard constraints. Traditional NLP approaches prioritize generating meaningful and coherent output. Also, the current state-of-the-art methods often lack the expressiveness and constraint satisfaction capabilities to handle such tasks effectively. Recently, an approach for generating constrained sentences in CP has been proposed in (Bonlarron et al, 2023). This ad-hoc model to solve the sentences generation problem under MNREAD rules proved neithertheless to be computationaly and structuraly unsuitable to deal with other more constrained problems. In this paper, a novel more generic approach is introduced to tackle many of these previously untractable problems, and illustrated here with the quite untractable sentences generation problem following RADNER rules. More precisely, this paper presents the CPTextGen Framework. This framework considers a constrained text generation problem as a discrete combinatorial optimization problem. It is solved by a constraint programming method that combines linguistic properties (e.g., n-grams or language level) with other more classical constraints (e.g., the number of characters, syllables). Eventually, a curation phase allows for selecting the best-generated sentences according to perplexity using an LLM. The effectiveness of this approach is demonstrated by tackling a new, more tediously constrained text generation problem: the iconic RADNER sentences problem. This problem aims to generate sentences respecting a set of quite strict rules defined by their use in vision and clinical research. Thanks to our CP-based approach, many new strongly constrained sentences have been successfully generated. This highlights our approach’s potential to handle unreasonably constrained text generation scenarios.
arxiv情報
著者 | Alexandre Bonlarron,Jean-Charles Régin |
発行日 | 2024-12-27 14:56:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google