KnowledgeVIS: Interpreting Language Models by Comparing Fill-in-the-Blank Prompts

要約

最近、大規模な言語モデルの人気が高まっているため、テキストの要約、予測、生成に使用されることが増えており、研究者やエンジニアがその機能の仕組みと理由を理解できるようにすることが重要になっています。
我々は、穴埋め文をプロンプトとして使用して言語モデルを解釈するための人間参加型の視覚分析システムである KnowledgeVis を紹介します。
KnowledgeVis は、文間の予測を比較することで、言語モデルがトレーニング中に学習したものを下流の自然言語タスクに直感的に結びつける学習された関連性を明らかにし、ユーザーが複数のプロンプトバリエーションを作成およびテストし、新しいセマンティッククラスタリング手法を使用して予測単語を分析し、インタラクティブな視覚化を使用して洞察を発見できるようにします。

これらの視覚化を総合すると、ユーザーは個々の予測の可能性と一意性を特定し、プロンプト間で一連の予測を比較し、すべてのプロンプトにわたる予測間のパターンと関係を要約するのに役立ちます。
6 人の NLP 専門家からのフィードバックと 3 つの異なる使用例を使用して、KnowledgeVis の機能を実証します。(1) 2 つのドメインに適応したモデルで生物医学知識を調査する。
(2) 有害なアイデンティティのステレオタイプを評価する、(3) 事実と 3 つの汎用モデル間の関係を発見する。

要約(オリジナル)

Recent growth in the popularity of large language models has led to their increased usage for summarizing, predicting, and generating text, making it vital to help researchers and engineers understand how and why they work. We present KnowledgeVis, a human-in-the-loop visual analytics system for interpreting language models using fill-in-the-blank sentences as prompts. By comparing predictions between sentences, KnowledgeVis reveals learned associations that intuitively connect what language models learn during training to natural language tasks downstream, helping users create and test multiple prompt variations, analyze predicted words using a novel semantic clustering technique, and discover insights using interactive visualizations. Collectively, these visualizations help users identify the likelihood and uniqueness of individual predictions, compare sets of predictions between prompts, and summarize patterns and relationships between predictions across all prompts. We demonstrate the capabilities of KnowledgeVis with feedback from six NLP experts as well as three different use cases: (1) probing biomedical knowledge in two domain-adapted models; and (2) evaluating harmful identity stereotypes and (3) discovering facts and relationships between three general-purpose models.

arxiv情報

著者 Adam Coscia,Alex Endert
発行日 2024-03-07 18:56:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC, cs.LG パーマリンク