Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian

要約

言語モデル (LM) を効果的に使用するには、特殊な分野やリソースの少ない言語で注釈付きデータが限られているという課題に対処することが重要です。
ほとんどの大規模言語モデル (LLM) は汎用の英語コーパスでトレーニングされていますが、イタリア語、特に専門用語や官僚的専門用語に特化して調整されたモデルには顕著なギャップがあります。
このペーパーでは、これらの特殊なコンテキストでパフォーマンスを向上させるための技術を促進するとともに、より小型のドメイン固有のエンコーダ LM を採用する実現可能性を検討します。
私たちの研究はイタリアの官僚言語と法律言語に焦点を当てており、汎用モデルとさらに事前トレーニングされたエンコーダー専用モデルの両方を実験しています。
文書の分類やエンティティの型指定などの下流タスクでモデルを評価し、擬似対数尤度を使用して固有の評価を実施しました。
この結果は、さらに事前トレーニングされたモデルは一般知識ではロバスト性が低下する可能性があるものの、ゼロショット設定であってもドメイン固有のタスクに対して優れた適応性を示すことを示しています。
さらに、キャリブレーション技術とドメイン内言語化ツールの適用により、エンコーダー モデルの有効性が大幅に向上します。
これらのドメインに特化したモデルは、ドメイン内のリソースや専門知識が不足しているシナリオで特に有利であることが証明されています。
結論として、私たちの調査結果は、デジタル変革時代の研究と産業応用の両方に重大な影響を与える可能性のある、特殊な状況におけるイタリアのモデルの使用に関する新たな洞察を提供します。

要約(オリジナル)

Addressing the challenge of limited annotated data in specialized fields and low-resource languages is crucial for the effective use of Language Models (LMs). While most Large Language Models (LLMs) are trained on general-purpose English corpora, there is a notable gap in models specifically tailored for Italian, particularly for technical and bureaucratic jargon. This paper explores the feasibility of employing smaller, domain-specific encoder LMs alongside prompting techniques to enhance performance in these specialized contexts. Our study concentrates on the Italian bureaucratic and legal language, experimenting with both general-purpose and further pre-trained encoder-only models. We evaluated the models on downstream tasks such as document classification and entity typing and conducted intrinsic evaluations using Pseudo-Log-Likelihood. The results indicate that while further pre-trained models may show diminished robustness in general knowledge, they exhibit superior adaptability for domain-specific tasks, even in a zero-shot setting. Furthermore, the application of calibration techniques and in-domain verbalizers significantly enhances the efficacy of encoder models. These domain-specialized models prove to be particularly advantageous in scenarios where in-domain resources or expertise are scarce. In conclusion, our findings offer new insights into the use of Italian models in specialized contexts, which may have a significant impact on both research and industrial applications in the digital transformation era.

arxiv情報

著者 Serena Auriemma,Martina Miliani,Mauro Madeddu,Alessandro Bondielli,Lucia Passaro,Alessandro Lenci
発行日 2024-07-30 08:50:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 68T50, cs.AI, cs.CL, I.2.7 パーマリンク