要約
親密さは人間関係の本質的な要素であり、言語はそれを伝達する重要な手段である。テキストによる親密さの分析は、異なる文脈における社会規範を明らかにし、社会情報を理解する計算モデルの能力をテストするためのベンチマークとして機能することができる。本論文では、WADERと呼ばれるテキスト回帰タスクにおけるデータ増強のための新しい弱ラベリング戦略を提案する。WADERは、データの不均衡とデータの希少性の問題に対処するためにデータ増強を使っており、クロスリンガル、ゼロショットタスクにおけるデータ増強のための方法を提供する。WADERを用いたState-of-Artの事前学習済み多言語言語モデルの性能をベンチマークし、データの偏りを緩和し、最適にオーグメント候補を選択するためのサンプリング技術の利用を分析する。その結果、WADERはベースラインモデルを上回り、テキスト回帰タスクにおけるデータの不均衡と希少性を緩和するための方向性を提供する。
要約(オリジナル)
Intimacy is an essential element of human relationships and language is a crucial means of conveying it. Textual intimacy analysis can reveal social norms in different contexts and serve as a benchmark for testing computational models’ ability to understand social information. In this paper, we propose a novel weak-labeling strategy for data augmentation in text regression tasks called WADER. WADER uses data augmentation to address the problems of data imbalance and data scarcity and provides a method for data augmentation in cross-lingual, zero-shot tasks. We benchmark the performance of State-of-the-Art pre-trained multilingual language models using WADER and analyze the use of sampling techniques to mitigate bias in data and optimally select augmentation candidates. Our results show that WADER outperforms the baseline model and provides a direction for mitigating data imbalance and scarcity in text regression tasks.
arxiv情報
著者 | Manan Suri,Aaryak Garg,Divya Chaudhary,Ian Gorton,Bijendra Kumar |
発行日 | 2023-03-05 19:45:42+00:00 |
arxivサイト | arxiv_id(pdf) |