要約
大規模な言語モデルのパフォーマンスの最近の改善は、おそらく、トレーニングデータの分布をどの程度適切に近似できるかを改善しています。
この作業では、次の質問を検討します。テキストドメインのどのプロパティが忠実に近似していますか?
コーパス言語学から馴染みのある観察アプローチを適用すると、一般的に使用されるOpenSource LLMに、LLMトレーニングデータ(ウィキペディアとニューステキスト)にしばしば含まれる、許可されたライセンスの2つのドメインからテキストを再生するよう促します。
この再生パラダイムにより、LLMがかなり意味的に制御された設定で元の人間のテキストドメインを忠実に一致させることができるかどうかを調査することができます。
文の長さや記事の読みやすさなどのより単純なプロパティから、依存関係タグの分布、解析深度、解析などのより複雑で高次のプロパティまで、さまざまなレベルの構文抽象化を調査します。
再生分布の大部分は、人間のオリジナルと比較して、シフトされた平均、標準偏差の低下、長い尾の減少を示していることがわかります。
要約(オリジナル)
Recent improvement in large language model performance have, in all likelihood, been accompanied by improvement in how well they can approximate the distribution of their training data. In this work, we explore the following question: which properties of text domains do LLMs faithfully approximate, and how well do they do so? Applying observational approaches familiar from corpus linguistics, we prompt a commonly used, opensource LLM to regenerate text from two domains of permissively licensed English text which are often contained in LLM training data — Wikipedia and news text. This regeneration paradigm allows us to investigate whether LLMs can faithfully match the original human text domains in a fairly semantically-controlled setting. We investigate varying levels of syntactic abstraction, from more simple properties like sentence length, and article readability, to more complex and higher order properties such as dependency tag distribution, parse depth, and parse complexity. We find that the majority of the regenerated distributions show a shifted mean, a lower standard deviation, and a reduction of the long tail, as compared to the human originals.
arxiv情報
著者 | Da Ju,Hagen Blix,Adina Williams |
発行日 | 2025-05-12 17:37:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google