Scalable and Domain-General Abstractive Proposition Segmentation

要約

テキストを意味の細かい単位に分割することは、幅広い NLP アプリケーションにとって重要です。
テキストを文に分割するデフォルトのアプローチは、多くの場合不十分です。特に、文は通常、下流のタスクで個別に処理する価値のある複数の意味単位を含むほど複雑であるためです。
私たちは、テキストを単純で自己完結型の整った文に変換する、抽象的な命題のセグメンテーションのタスクに焦点を当てます。
最近のいくつかの研究では、検索拡張グラウンディングや事実検証などの下流タスクに対する、少数ショット プロンプト LLM を使用した命題セグメンテーションの有用性が実証されています。
ただし、このアプローチは大量のテキストには対応できず、入力テキストからすべての事実が常に抽出されるとは限りません。
このペーパーでは、まず、品質のいくつかの側面を測定するタスクの評価指標を紹介します。
次に、スケーラブルでありながら正確な提案セグメンテーション モデルを提案します。
既存のアノテーション付きデータセットで LLM をトレーニングすることにより、命題セグメンテーションを教師ありタスクとしてモデル化し、トレーニングにより大幅に改善された結果が得られることを示します。
さらに、微調整された LLM を大量のマルチドメイン合成蒸留データに注釈を付けるための教師として使用することで、教師 LLM と同様の結果で小規模な学生モデルをトレーニングできることを示します。
次に、元のトレーニング データの外側の 2 つのドメインのデータに注釈を付け、それらを評価することで、この手法が効果的なドメイン一般化につながることを示します。
最後に、この論文の主な貢献として、NLP 実践者が使用できる使いやすい API を共有します。

要約(オリジナル)

Segmenting text into fine-grained units of meaning is important to a wide range of NLP applications. The default approach of segmenting text into sentences is often insufficient, especially since sentences are usually complex enough to include multiple units of meaning that merit separate treatment in the downstream task. We focus on the task of abstractive proposition segmentation: transforming text into simple, self-contained, well-formed sentences. Several recent works have demonstrated the utility of proposition segmentation with few-shot prompted LLMs for downstream tasks such as retrieval-augmented grounding and fact verification. However, this approach does not scale to large amounts of text and may not always extract all the facts from the input text. In this paper, we first introduce evaluation metrics for the task to measure several dimensions of quality. We then propose a scalable, yet accurate, proposition segmentation model. We model proposition segmentation as a supervised task by training LLMs on existing annotated datasets and show that training yields significantly improved results. We further show that by using the fine-tuned LLMs as teachers for annotating large amounts of multi-domain synthetic distillation data, we can train smaller student models with results similar to the teacher LLMs. We then demonstrate that our technique leads to effective domain generalization, by annotating data in two domains outside the original training data and evaluating on them. Finally, as a key contribution of the paper, we share an easy-to-use API for NLP practitioners to use.

arxiv情報

著者 Mohammad Javad Hosseini,Yang Gao,Tim Baumgärtner,Alex Fabrikant,Reinald Kim Amplayo
発行日 2024-06-28 10:24:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク