要約
この論文では、自己回帰言語モデルと自動エンコーダ言語モデルを統合することでテキスト分類を強化する新しい方法である CAALM-TC (テキスト分類のための自己回帰言語モデルと自動エンコーダ言語モデルの組み合わせ) を紹介します。
Open AI の GPT、Meta の Llama、Microsoft の Phi などの自己回帰大規模言語モデルは、コンテンツ分析の実践者にとって有望な見通しを提供しますが、テキスト分類に関しては一般に教師あり BERT ベースのモデルよりもパフォーマンスが劣ります。
CAALM は、自己回帰モデルを利用して入力テキストに基づいてコンテキスト情報を生成し、その情報が元のテキストと結合されて、分類のために自動エンコーダー モデルに入力されます。
このハイブリッド アプローチは、自己回帰モデルの広範なコンテキスト知識と自動エンコーダーの効率的な分類機能を活用します。
4 つのベンチマーク データセットに関する実験結果は、CAALM が、特に小規模なデータセットとより抽象的な分類目標を使用するタスクにおいて、既存の手法よりも一貫して優れたパフォーマンスを発揮することを示しています。
この調査結果は、CAALM がサンプル サイズ要件を最小限に抑えた、社会科学研究における自動コンテンツ分析のためのスケーラブルで効果的なソリューションを提供することを示しています。
要約(オリジナル)
This paper presents CAALM-TC (Combining Autoregressive and Autoencoder Language Models for Text Classification), a novel method that enhances text classification by integrating autoregressive and autoencoder language models. Autoregressive large language models such as Open AI’s GPT, Meta’s Llama or Microsoft’s Phi offer promising prospects for content analysis practitioners, but they generally underperform supervised BERT based models for text classification. CAALM leverages autoregressive models to generate contextual information based on input texts, which is then combined with the original text and fed into an autoencoder model for classification. This hybrid approach capitalizes on the extensive contextual knowledge of autoregressive models and the efficient classification capabilities of autoencoders. Experimental results on four benchmark datasets demonstrate that CAALM consistently outperforms existing methods, particularly in tasks with smaller datasets and more abstract classification objectives. The findings indicate that CAALM offers a scalable and effective solution for automated content analysis in social science research that minimizes sample size requirements.
arxiv情報
著者 | João Gonçalves |
発行日 | 2024-11-20 12:49:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google