XATU: A Fine-grained Instruction-based Benchmark for Explainable Text Updates

要約

テキスト編集は、ユーザーの意図に合わせてテキストを変更する重要なタスクです。
ただし、既存のテキスト編集ベンチマーク データセットには、大まかな指示しか提供できないという制限があります。
その結果、編集された出力は合理的であるように見えても、ゴールド リファレンスで概説されている意図した変更から逸脱することが多く、その結果、評価スコアが低くなります。
大規模な言語モデルのテキスト編集機能を包括的に調査するために、このホワイトペーパーでは、きめ細かい命令ベースの説明可能なテキスト編集用に特別に設計された初のベンチマークである XATU を紹介します。
XATU は幅広いトピックとテキスト タイプをカバーし、語彙、構文、意味、知識集約的な編集を組み込んでいます。
解釈可能性を高めるために、高品質のデータ ソースと人間による注釈を活用し、きめ細かい指示とゴールドスタンダードの編集説明を含むベンチマークを実現しました。
既存のオープンおよびクローズドの大規模言語モデルをベンチマークに対して評価することで、命令チューニングの有効性と、さまざまな編集タスクにわたる基礎となるアーキテクチャの影響を実証します。
さらに、広範な実験により、テキスト編集タスクの言語モデルを微調整する際の説明の重要な役割が明らかになりました。
このベンチマークは、再現をサポートし、将来の研究を促進するためにオープンソース化されます。

要約(オリジナル)

Text editing is a crucial task that involves modifying text to better align with user intents. However, existing text editing benchmark datasets have limitations in providing only coarse-grained instructions. Consequently, although the edited output may seem reasonable, it often deviates from the intended changes outlined in the gold reference, resulting in low evaluation scores. To comprehensively investigate the text editing capabilities of large language models, this paper introduces XATU, the first benchmark specifically designed for fine-grained instruction-based explainable text editing. XATU covers a wide range of topics and text types, incorporating lexical, syntactic, semantic, and knowledge-intensive edits. To enhance interpretability, we leverage high-quality data sources and human annotation, resulting in a benchmark that includes fine-grained instructions and gold-standard edit explanations. By evaluating existing open and closed large language models against our benchmark, we demonstrate the effectiveness of instruction tuning and the impact of underlying architecture across various editing tasks. Furthermore, extensive experimentation reveals the significant role of explanations in fine-tuning language models for text editing tasks. The benchmark will be open-sourced to support reproduction and facilitate future research.

arxiv情報

著者 Haopeng Zhang,Hayate Iso,Sairam Gurajada,Nikita Bhutani
発行日 2023-09-20 04:58:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク