Representativeness as a Forgotten Lesson for Multilingual and Code-switched Data Collection and Preparation

要約

多言語主義は世界中に普及しており、コードスイッチング (CSW) は、場所や地域を越えてさまざまな言語ペア/タプル間で一般的に行われています。
しかし、大規模多言語モデル (MMLM) の最近の進歩にもかかわらず、成功する CSW システムの構築にはまだ大きな進歩がありません。
我々は、収集と準備(転写と注釈など)段階の観点から、言語ペアにわたる既存の CSW データセット (68) に関する批判的研究を通じて、この挫折の背後にある理由を調査します。
この詳細な分析により、 \textbf{a)} ほとんどの CSW データには他の言語ペア/タプルを無視した英語が含まれていることが明らかになりました \textbf{b)} 位置ベースを無視しているため、データ収集と準備の段階での代表性の点で欠陥があります。
CSW における社会人口動態と登録者の変動。
さらに、データ選択とフィルタリングの段階が明確にされていないため、CSW データセットの代表性が影を落としています。
最後に、CSW データの収集と準備に関する今後の研究の代表性を向上させるための短いチェックリストを提供します。

要約(オリジナル)

Multilingualism is widespread around the world and code-switching (CSW) is a common practice among different language pairs/tuples across locations and regions. However, there is still not much progress in building successful CSW systems, despite the recent advances in Massive Multilingual Language Models (MMLMs). We investigate the reasons behind this setback through a critical study about the existing CSW data sets (68) across language pairs in terms of the collection and preparation (e.g. transcription and annotation) stages. This in-depth analysis reveals that \textbf{a)} most CSW data involves English ignoring other language pairs/tuples \textbf{b)} there are flaws in terms of representativeness in data collection and preparation stages due to ignoring the location based, socio-demographic and register variation in CSW. In addition, lack of clarity on the data selection and filtering stages shadow the representativeness of CSW data sets. We conclude by providing a short check-list to improve the representativeness for forthcoming studies involving CSW data collection and preparation.

arxiv情報

著者 A. Seza Doğruöz,Sunayana Sitaram,Zheng-Xin Yong
発行日 2023-10-31 14:04:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク