要約
構成的一般化は言語モデルの重要な能力であり、さまざまな症状が現れます。
データからテキストへの生成については、この機能に関する以前の研究は系統性と呼ばれる単一の発現に限定されており、大規模言語モデル (LLM) の考慮が欠けており、実際のアプリケーション シナリオを完全にカバーすることはできません。
この研究では、データからテキストへの生成における構成の一般化のための包括的かつ実用的な評価方法である SPOR を提案します。
SPOR には、マニフェストの 4 つの側面 (体系性、生産性、順序の不変性、ルールの学習可能性) が含まれており、既存のデータセットに基づいて追加の手動アノテーションを行わずに高品質の評価を可能にします。
2 つの異なるデータセットで SPOR を実証し、LLM を含むいくつかの既存の言語モデルを評価します。
モデルには評価のさまざまな側面が不十分であり、さらなる改善が必要であることがわかりました。
私たちの研究は、データからテキストへの生成における構成的一般化のさまざまな現れに関する包括的な研究の必要性を示し、評価の枠組みを提供します。
要約(オリジナル)
Compositional generalization is an important ability of language models and has many different manifestations. For data-to-text generation, previous research on this ability is limited to a single manifestation called Systematicity and lacks consideration of large language models (LLMs), which cannot fully cover practical application scenarios. In this work, we propose SPOR, a comprehensive and practical evaluation method for compositional generalization in data-to-text generation. SPOR includes four aspects of manifestations (Systematicity, Productivity, Order invariance, and Rule learnability) and allows high-quality evaluation without additional manual annotations based on existing datasets. We demonstrate SPOR on two different datasets and evaluate some existing language models including LLMs. We find that the models are deficient in various aspects of the evaluation and need further improvement. Our work shows the necessity for comprehensive research on different manifestations of compositional generalization in data-to-text generation and provides a framework for evaluation.
arxiv情報
著者 | Ziyao Xu,Houfeng Wang |
発行日 | 2024-05-17 09:25:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google