要約
音韻論的および音声学的に根拠のある言語生成に関するこれまでの研究は、主にダジャレや詩などの領域に焦点を当てていました。
この記事では、英語の早口言葉の生成に関する新しい研究を紹介します。早口言葉は、入力されたトピックやフレーズとの意味上の一貫性を維持しながら、文法的に正しいものでありながら、音の重複を最大化するために音素レベルで条件付けする必要がある言語形式です。
。
私たちは、大規模言語モデル (LLM) から音韻に基づいた早口言葉を生成するためのパイプラインである TwisterLister を紹介します。これは、人間と LLM の作成者の組み合わせによる 17,000 以上の例で構成される、これまでで最大の早口言葉の注釈付きデータセットである TwistList 2.0 の生成に使用します。
私たちの生成パイプラインには、LLM と並行して音韻的に制限された語彙の使用が含まれており、新しい非派生的な早口言葉の例の生成を促します。
さらに、生成されたデータセットでトレーニングされた小規模モデルの自動および人間による評価の結果を提示し、音韻知識を明示的に注入せずに音韻動機付けの言語タイプをどの程度生成できるかを実証します。
さらに、自己回帰言語モデルに統合できる音素認識制約復号モジュール (PACD) を導入し、この方法が基礎となる言語モデルを微調整した場合としない場合の両方で高品質の早口言葉を生成することを実証します。
また、主に音韻編集距離 (PED) に基づいて、音韻に動機付けられ、早口言葉の独特の本質を捉える早口言葉生成タスク用の一連の自動メトリクスを設計および実装します。
要約(オリジナル)
Previous work in phonologically and phonetically grounded language generation has mainly focused on domains such as puns and poetry. In this article, we present new work on the generation of English tongue twisters – a form of language that is required to be conditioned on a phoneme level to maximize sound overlap, while maintaining semantic consistency with an input topic or phrase and still being grammatically correct. We present TwisterLister, a pipeline for generating phonologically informed tongue twisters from large language models (LLMs) that we use to generate TwistList 2.0, the largest annotated dataset of tongue twisters to date, consisting of 17K+ examples from a combination of human and LLM authors. Our generation pipeline involves the use of a phonologically constrained vocabulary alongside LLM prompting to generate novel, non-derivative tongue twister examples. We additionally present the results of automatic and human evaluation of smaller models trained on our generated dataset to demonstrate the extent to which phonologically motivated language types can be generated without explicit injection of phonological knowledge. Additionally, we introduce a phoneme-aware constrained decoding module (PACD) that can be integrated into an autoregressive language model and demonstrate that this method generates good quality tongue twisters both with and without fine-tuning the underlying language model. We also design and implement a range of automatic metrics for the task of tongue twister generation that is phonologically motivated and captures the unique essence of tongue twisters, primarily based on phonemic edit distance (PED)
arxiv情報
著者 | Tyler Loakman,Chen Tang,Chenghua Lin |
発行日 | 2024-10-18 15:25:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google