要約
ソース言語とターゲット言語の違いの違いは、特に依存関係の解析タスクにおいて、横断的な転送の大きな障害です。
現在の作品は、主に注文に達したモデルまたはこの問題を軽減するための単語の並べ替えに基づいています。
ただし、このような方法は、文法情報を自然に語り方に含む文法情報を活用しないか、順列空間が文の長さとともに指数関数的に成長するため、計算上高価です。
さらに、不自然な語順を備えた並べ替えられたソース文は、モデルの学習に害を及ぼすノーシングの形である可能性があります。
この目的のために、知識蒸留(IWR-kd)を備えた暗黙の単語の並べ替えフレームワークを提案します。
このフレームワークは、深いネットワークが意味のあるデータ変換に対応する学習機能の線形化に優れていることに触発されています。
単語の並べ替え。
このアイデアを実現するために、単語の再注文教師モデルと依存関係解析学生モデルで構成される知識蒸留フレームワークを紹介します。
31の異なる言語にわたるユニバーサル依存のツリーバンクに関する提案された方法を検証し、実験分析とともに一連の競合他社を上回ることを示し、堅牢なパーサーのトレーニングにどのように機能するかを説明します。
要約(オリジナル)
Word order difference between source and target languages is a major obstacle to cross-lingual transfer, especially in the dependency parsing task. Current works are mostly based on order-agnostic models or word reordering to mitigate this problem. However, such methods either do not leverage grammatical information naturally contained in word order or are computationally expensive as the permutation space grows exponentially with the sentence length. Moreover, the reordered source sentence with an unnatural word order may be a form of noising that harms the model learning. To this end, we propose an Implicit Word Reordering framework with Knowledge Distillation (IWR-KD). This framework is inspired by that deep networks are good at learning feature linearization corresponding to meaningful data transformation, e.g. word reordering. To realize this idea, we introduce a knowledge distillation framework composed of a word-reordering teacher model and a dependency parsing student model. We verify our proposed method on Universal Dependency Treebanks across 31 different languages and show it outperforms a series of competitors, together with experimental analysis to illustrate how our method works towards training a robust parser.
arxiv情報
著者 | Zhuoran Li,Chunming Hu,Junfan Chen,Zhijun Chen,Richong Zhang |
発行日 | 2025-02-24 16:43:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google