Bengali Intent Classification with Generative Adversarial BERT

要約

意図の分類は自然言語理解における基本的なタスクであり、ユーザーのクエリや文を事前定義されたクラスに分類してユーザーの意図を理解することを目的としています。
この特定のタスクの最も困難な側面は、適切な言語バリエーションを確保しながら、考えられるすべてのクラスの意図をデータセットに効果的に組み込むことにあります。
関連分野では、英語などのリソースが豊富な言語で多くの研究が行われています。
この研究では、30 の意図クラスを含む包括的なベンガル語の意図分類データセットである BNIntent30 を紹介します。
このデータセットは、150 のクラスに分類されたさまざまなユーザーの意図を含む CLINIC150 データセットから抜粋および翻訳されています。
さらに、提案されたデータセットを評価するために敵対的生成 BERT を使用したベンガル語の意図分類の新しいアプローチを提案します。これを GAN-BnBERT と呼びます。
私たちのアプローチは、BERT ベースのコンテキスト エンベディングの力を活用して、テキスト データから顕著な言語的特徴とコンテキスト情報をキャプチャします。一方、敵対的生成ネットワーク (GAN) コンポーネントは、生成モデリングを通じて既存のインテント クラスの多様な表現を学習するモデルの機能を補完します。
私たちの実験結果は、GAN-BnBERT モデルが新しく導入された BNIntent30 データセット上で優れたパフォーマンスを達成し、既存の Bi-LSTM およびスタンドアロン BERT ベースの分類モデルを上回ることを示しています。

要約(オリジナル)

Intent classification is a fundamental task in natural language understanding, aiming to categorize user queries or sentences into predefined classes to understand user intent. The most challenging aspect of this particular task lies in effectively incorporating all possible classes of intent into a dataset while ensuring adequate linguistic variation. Plenty of research has been conducted in the related domains in rich-resource languages like English. In this study, we introduce BNIntent30, a comprehensive Bengali intent classification dataset containing 30 intent classes. The dataset is excerpted and translated from the CLINIC150 dataset containing a diverse range of user intents categorized over 150 classes. Furthermore, we propose a novel approach for Bengali intent classification using Generative Adversarial BERT to evaluate the proposed dataset, which we call GAN-BnBERT. Our approach leverages the power of BERT-based contextual embeddings to capture salient linguistic features and contextual information from the text data, while the generative adversarial network (GAN) component complements the model’s ability to learn diverse representations of existing intent classes through generative modeling. Our experimental results demonstrate that the GAN-BnBERT model achieves superior performance on the newly introduced BNIntent30 dataset, surpassing the existing Bi-LSTM and the stand-alone BERT-based classification model.

arxiv情報

著者 Mehedi Hasan,Mohammad Jahid Ibna Basher,Md. Tanvir Rouf Shawon
発行日 2023-12-17 10:45:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク