Emergent Linguistic Structures in Neural Networks are Fragile

要約

大規模言語モデル (LLM) は、自然言語処理タスクで優れたパフォーマンスを発揮すると報告されています。
ただし、精度などのパフォーマンス メトリックは、複雑な言語構造を確実に表現する能力という観点からモデルの品質を測定するものではありません。
この論文では、構文を表現する言語モデルの能力に焦点を当て、言語表現の一貫性と堅牢性を評価するためのフレームワークを提案します。
この目的のために、プロービング タスク、つまり言語モデルの 1 つの側面に関する意味のある情報を抽出するために使用される単純なタスク (構文の再構築や
ルート識別。
経験的に、構文保存摂動に関するパフォーマンスとロバスト性を分析することにより、提案されたロバスト性測定に関する 6 つの異なるコーパスにわたる 4 つの LLM のパフォーマンスを研究します。
状況に依存しない表現 (例: GloVe) は、場合によっては、最新の LLM (例: BERT) の文脈依存表現と競合するが、構文を維持する摂動に対しても同様に脆弱であるという証拠を提供します。
私たちの重要な観察結果は、ニューラル ネットワークにおける創発的な構文表現は脆弱であるということです。
LLM の機能に関する議論への貢献として、コード、トレーニング済みモデル、およびログをコミュニティで利用できるようにします。

要約(オリジナル)

Large Language Models (LLMs) have been reported to have strong performance on natural language processing tasks. However, performance metrics such as accuracy do not measure the quality of the model in terms of its ability to robustly represent complex linguistic structure. In this paper, focusing on the ability of language models to represent syntax, we propose a framework to assess the consistency and robustness of linguistic representations. To this end, we introduce measures of robustness of neural network models that leverage recent advances in extracting linguistic constructs from LLMs via probing tasks, i.e., simple tasks used to extract meaningful information about a single facet of a language model, such as syntax reconstruction and root identification. Empirically, we study the performance of four LLMs across six different corpora on the proposed robustness measures by analysing their performance and robustness with respect to syntax-preserving perturbations. We provide evidence that context-free representation (e.g., GloVe) are in some cases competitive with context-dependent representations from modern LLMs (e.g., BERT), yet equally brittle to syntax-preserving perturbations. Our key observation is that emergent syntactic representations in neural networks are brittle. We make the code, trained models and logs available to the community as a contribution to the debate about the capabilities of LLMs.

arxiv情報

著者 Emanuele La Malfa,Matthew Wicker,Marta Kwiatkowska
発行日 2023-03-29 13:29:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク