Pareto Probing: Trading Off Accuracy for Complexity

要約

原理的かつ有用な方法で、文脈上の単語表現からどのように言語構造をプローブするかという問題は、最近NLPの文献で大きな注目を集めている。この議論に対する我々の貢献として、プローブの複雑さと性能の間の基本的なトレードオフを反映するプローブメトリック、すなわちパレート・ハイパーボリュームを主張する。複雑さを測定するために、パラメトリックおよびノンパラメトリックの測定基準をいくつか提示する。パレート超体積を評価指標として使用した実験では、プローブがしばしば我々の期待に沿わないことが示された。例えば、文脈に基づかない fastText 表現は、文脈に基づく BERT 表現よりも多くの形態統語情報をエンコードしなければならないのはなぜか?これらの結果は、品詞ラベリングや係り受けアークラベリングなどの一般的で単純化されたプロービングタスクは、文脈的な単語表現にエンコードされた言語構造を評価するには不十分であることを示唆している。このことから、我々は完全な係り受け解析(dependency parsing)をプロービングタスクとして提案する。より困難なプロービングタスクが必要であるという我々の提案の裏付けとして、係り受け構文解析の実験から、文脈表現と非文脈表現の間の構文知識における大きなギャップが明らかになった。

要約(オリジナル)

The question of how to probe contextual word representations for linguistic structure in a way that is both principled and useful has seen significant attention recently in the NLP literature. In our contribution to this discussion, we argue for a probe metric that reflects the fundamental trade-off between probe complexity and performance: the Pareto hypervolume. To measure complexity, we present a number of parametric and non-parametric metrics. Our experiments using Pareto hypervolume as an evaluation metric show that probes often do not conform to our expectations — e.g., why should the non-contextual fastText representations encode more morpho-syntactic information than the contextual BERT representations? These results suggest that common, simplistic probing tasks, such as part-of-speech labeling and dependency arc labeling, are inadequate to evaluate the linguistic structure encoded in contextual word representations. This leads us to propose full dependency parsing as a probing task. In support of our suggestion that harder probing tasks are necessary, our experiments with dependency parsing reveal a wide gap in syntactic knowledge between contextual and non-contextual representations.

arxiv情報

著者 Tiago Pimentel,Naomi Saphra,Adina Williams,Ryan Cotterell
発行日 2023-12-04 12:23:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク