Meta learning with language models: Challenges and opportunities in the classification of imbalanced text

要約

方針に反する発言 (OOPS) コンテンツを検出することは重要ですが、困難です。
機械学習はこの困難なタスクに取り組むための強力なツールですが、トレーニング データの量と品質の制限、OOPS 定義とデータのラベル付けの不一致などの要因により、パフォーマンスの上限を突破するのは困難です。
利用可能な限られたリソースの可能性を最大限に引き出すために、さまざまなテキスト表現で構築された個々のモデルを組み合わせるメタ学習手法 (MLT) を提案します。
結果として得られる手法が数値的に安定しており、合理的な結合重みを生成することを分析的に示します。
MLT をしきい値移動 (TM) 手法と組み合わせて、非常に不均衡な分布内データセットと分布外データセットに対する複合予測子のパフォーマンスをさらに向上させます。
また、提案された MLT アプローチの統計的に有意な利点を示す計算結果も提供します。
すべての著者がこの作品に等しく貢献しました。

要約(オリジナル)

Detecting out of policy speech (OOPS) content is important but difficult. While machine learning is a powerful tool to tackle this challenging task, it is hard to break the performance ceiling due to factors like quantity and quality limitations on training data and inconsistencies in OOPS definition and data labeling. To realize the full potential of available limited resources, we propose a meta learning technique (MLT) that combines individual models built with different text representations. We analytically show that the resulting technique is numerically stable and produces reasonable combining weights. We combine the MLT with a threshold-moving (TM) technique to further improve the performance of the combined predictor on highly-imbalanced in-distribution and out-of-distribution datasets. We also provide computational results to show the statistically significant advantages of the proposed MLT approach. All authors contributed equally to this work.

arxiv情報

著者 Apostol Vassilev,Honglan Jin,Munawar Hasan
発行日 2023-10-23 15:14:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク