Prompting or Fine-tuning? A Comparative Study of Large Language Models for Taxonomy Construction

要約

タクソノミーはエンティティ間の階層関係を表し、さまざまなソフトウェア モデリングや自然言語処理 (NLP) アクティビティに頻繁に適用されます。
これらは通常、コンテンツを制限する一連の構造的制約の対象となります。
ただし、手動による分類法の構築は時間がかかり、不完全で、維持コストがかかる可能性があります。
大規模言語モデル (LLM) に関する最近の研究では、適切なユーザー入力 (プロンプトと呼ばれる) が、明示的な (再) トレーニングなしで、GPT-3 などの LLM をさまざまな NLP タスクに効果的に導くことができることが実証されました。
ただし、分類法を自動構築するための既存のアプローチでは、通常、モデル パラメーターを調整して言語モデルを微調整する必要があります。
この論文では、構造的制約を考慮した分類構築のための一般的なフレームワークを紹介します。
続いて、上位語分類法と新しいコンピューター サイエンス分類法データセットに対して実行されたプロンプトと微調整のアプローチを体系的に比較します。
私たちの結果は次のことを明らかにしています: (1) データセットで明示的なトレーニングを行わなくても、プロンプトを与えるアプローチは微調整ベースのアプローチよりも優れています。
さらに、トレーニング データセットが小さい場合、プロンプトと微調整の間のパフォーマンスのギャップが拡大します。
ただし、(2) 微調整アプローチによって生成されたタクソノミーは、すべての制約を満たすために簡単に後処理できますが、プロンプトアプローチによって生成されたタクソノミーの違反を処理するのは困難な場合があります。
これらの評価結果は、分類構築のための適切な方法を選択するためのガイダンスを提供し、両方のアプローチの潜在的な拡張機能を強調します。

要約(オリジナル)

Taxonomies represent hierarchical relations between entities, frequently applied in various software modeling and natural language processing (NLP) activities. They are typically subject to a set of structural constraints restricting their content. However, manual taxonomy construction can be time-consuming, incomplete, and costly to maintain. Recent studies of large language models (LLMs) have demonstrated that appropriate user inputs (called prompting) can effectively guide LLMs, such as GPT-3, in diverse NLP tasks without explicit (re-)training. However, existing approaches for automated taxonomy construction typically involve fine-tuning a language model by adjusting model parameters. In this paper, we present a general framework for taxonomy construction that takes into account structural constraints. We subsequently conduct a systematic comparison between the prompting and fine-tuning approaches performed on a hypernym taxonomy and a novel computer science taxonomy dataset. Our result reveals the following: (1) Even without explicit training on the dataset, the prompting approach outperforms fine-tuning-based approaches. Moreover, the performance gap between prompting and fine-tuning widens when the training dataset is small. However, (2) taxonomies generated by the fine-tuning approach can be easily post-processed to satisfy all the constraints, whereas handling violations of the taxonomies produced by the prompting approach can be challenging. These evaluation findings provide guidance on selecting the appropriate method for taxonomy construction and highlight potential enhancements for both approaches.

arxiv情報

著者 Boqi Chen,Fandi Yi,Dániel Varró
発行日 2023-09-04 16:53:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク