Visualizing Linguistic Diversity of Text Datasets Synthesized by Large Language Models

要約

大規模言語モデル (LLM) を使用すると、ベンチマーク、微調整、またはその他のユースケースのための少数のプロンプトを介して、より小規模でより洗練されたデータセットを生成できます。
ただし、これらのデータセットを理解して評価することは難しく、LLM によって生成されたデータの障害モードはまだよく理解されていません。
具体的には、データは意味的にだけでなく、構文的および語彙的にも驚くべき方法で反復される可能性があります。
我々は、LLM で生成されたデータセットの構文の多様性を理解して分析するための新しいインタラクティブな視覚化ツールである LinguisticLens を紹介します。
LinguisticLens は、構文軸、語彙軸、および意味軸に沿ってテキストをクラスタリングします。
テキスト データセットの階層的な視覚化をサポートしているため、ユーザーは概要をすばやく調べて個々の例を調べることができます。
ライブデモは shorturl.at/zHOUV で入手できます。

要約(オリジナル)

Large language models (LLMs) can be used to generate smaller, more refined datasets via few-shot prompting for benchmarking, fine-tuning or other use cases. However, understanding and evaluating these datasets is difficult, and the failure modes of LLM-generated data are still not well understood. Specifically, the data can be repetitive in surprising ways, not only semantically but also syntactically and lexically. We present LinguisticLens, a novel inter-active visualization tool for making sense of and analyzing syntactic diversity of LLM-generated datasets. LinguisticLens clusters text along syntactic, lexical, and semantic axes. It supports hierarchical visualization of a text dataset, allowing users to quickly scan for an overview and inspect individual examples. The live demo is available at shorturl.at/zHOUV.

arxiv情報

著者 Emily Reif,Minsuk Kahng,Savvas Petridis
発行日 2023-09-27 22:08:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク