Exploring Multilingual Text Data Distillation

要約

ディープラーニングの台頭により、大規模なデータセットと複雑なモデルが一般的になり、かなりのコンピューティング能力が必要になります。
これに対処するために、より少ないメモリと時間の要件でモデルを迅速にトレーニングする手法として、データ蒸留が登場しました。
ただし、テキストベースのデータセットでのデータの蒸留は、その離散的な性質によって課題が生じるため、あまり検討されていません。
さらに、既存のデータセット抽出手法は、新しいアーキテクチャに一般化するのに苦労することがよくあります。
この論文では、言語モデルベースの学習手法を使用した、多言語テキスト分類データセットのためのいくつかのデータ蒸留手法を提案します。
私たちは、分類強度とクロスアーキテクチャ一般化の観点からパフォーマンスを分析するための実験を実施します。
さらに、これらの方法によって生成されたデータ概要の言語固有の公平性を調査します。
私たちのアプローチは既存の技術に基づいて構築されており、テキスト データ抽出ドメインにおけるクロスアーキテクチャの一般化を強化しています。

要約(オリジナル)

With the rise of deep learning, large datasets and complex models have become common, requiring significant computing power. To address this, data distillation has emerged as a technique to quickly train models with lower memory and time requirements. However, data distillation on text-based datasets hasn’t been explored much because of the challenges rising due to its discrete nature. Additionally, existing dataset distillation methods often struggle to generalize to new architectures. In the paper, we propose several data distillation techniques for multilingual text classification datasets using language-model-based learning methods. We conduct experiments to analyze their performance in terms of classification strength, and cross-architecture generalization. Furthermore, we investigate the language-specific fairness of the data summaries generated by these methods. Our approach builds upon existing techniques, enhancing cross-architecture generalization in the text data distillation domain.

arxiv情報

著者 Shivam Sahni,Harsh Patel
発行日 2023-08-09 14:31:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, F.2.2, I.2.7 パーマリンク