To Label or Not to Label: Hybrid Active Learning for Neural Machine Translation

要約

アクティブ ラーニング (AL) 技術は、アノテーション用にラベルのないデータからより小さな代表的なサブセットを選択することで、ニューラル機械翻訳 (NMT) モデルをトレーニングするためのラベル付けコストを削減します。
多様性サンプリング手法では異種のインスタンスが選択されますが、不確実性サンプリング手法ではモデルの不確実性が最も高いインスタンスが選択されます。
どちらのアプローチにも限界があります。多様性手法では、多様ではあるが些細な例が抽出される可能性がありますが、不確実性サンプリングでは、反復的で有益でない例が生成される可能性があります。
このギャップを埋めるために、文選択の不確実性と多様性を組み合わせた、NMT におけるドメイン適応のための AL 戦略であるハイブリッド不確実性と多様性サンプリング (HUDS) を提案します。
HUDS は、ラベルのない文の不確実性スコアを計算し、その後それらを階層化します。
次に、各層内の文の埋め込みをクラスター化し、重心までの距離に基づいて多様性スコアを計算します。
次に、不確実性と多様性を組み合わせた重み付けされたハイブリッド スコアを使用して、各 AL 反復でアノテーションの上位インスタンスが選択されます。
マルチドメインのドイツ語-英語およびフランス語-英語のデータセットでの実験では、他の強力な AL ベースラインよりも HUDS のパフォーマンスが優れていることが実証されています。
HUDS を使用して文の選択を分析し、初期の AL 反復でアノテーションのモデルの不確実性が高い多様なインスタンスを優先することを示します。

要約(オリジナル)

Active learning (AL) techniques reduce labeling costs for training neural machine translation (NMT) models by selecting smaller representative subsets from unlabeled data for annotation. Diversity sampling techniques select heterogeneous instances, while uncertainty sampling methods select instances with the highest model uncertainty. Both approaches have limitations – diversity methods may extract varied but trivial examples, while uncertainty sampling can yield repetitive, uninformative instances. To bridge this gap, we propose Hybrid Uncertainty and Diversity Sampling (HUDS), an AL strategy for domain adaptation in NMT that combines uncertainty and diversity for sentence selection. HUDS computes uncertainty scores for unlabeled sentences and subsequently stratifies them. It then clusters sentence embeddings within each stratum and computes diversity scores by distance to the centroid. A weighted hybrid score that combines uncertainty and diversity is then used to select the top instances for annotation in each AL iteration. Experiments on multi-domain German-English and French-English datasets demonstrate the better performance of HUDS over other strong AL baselines. We analyze the sentence selection with HUDS and show that it prioritizes diverse instances having high model uncertainty for annotation in early AL iterations.

arxiv情報

著者 Abdul Hameed Azeemi,Ihsan Ayyub Qazi,Agha Ali Raza
発行日 2024-12-18 17:18:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク