Investigating Cross-Domain Behaviors of BERT in Review Understanding

要約

レビュースコアの予測には、自然言語処理の重要な現実世界への応用であるレビューテキストの理解が必要です。
製品レビューではテキスト ドメインが異なるため、異なるドメインのレビューに基づいて BERT モデルを微調整するのが一般的です。
ただし、製品レビューを理解するさまざまなタスクにおける BERT モデルのクロスドメイン動作に関する実証研究はまだ行われていません。
このプロジェクトでは、単一ドメインおよびマルチドメインの Amazon レビュー データに基づいて微調整されたテキスト分類 BERT モデルを調査します。
私たちの調査結果では、単一ドメイン モデルは、マルチドメイン モデルと比較して、対応するドメインでパフォーマンスがわずかに向上しましたが、マルチドメイン データで評価すると、マルチドメイン モデルの方が単一ドメイン モデルを上回り、単一ドメイン データは単一ドメイン モデルを上回りました。
微調整されておらず、すべてのテストを考慮した場合の平均です。
単一ドメイン モデルの微調整によって精度をわずかに向上させることはできますが、ドメイン間で適切にパフォーマンスを発揮するマルチドメイン モデルを利用することで、計算リソースとコストを削減できます。

要約(オリジナル)

Review score prediction requires review text understanding, a critical real-world application of natural language processing. Due to dissimilar text domains in product reviews, a common practice is fine-tuning BERT models upon reviews of differing domains. However, there has not yet been an empirical study of cross-domain behaviors of BERT models in the various tasks of product review understanding. In this project, we investigate text classification BERT models fine-tuned on single-domain and multi-domain Amazon review data. In our findings, though single-domain models achieved marginally improved performance on their corresponding domain compared to multi-domain models, multi-domain models outperformed single-domain models when evaluated on multi-domain data, single-domain data the single-domain model was not fine-tuned on, and on average when considering all tests. Though slight increases in accuracy can be achieved through single-domain model fine-tuning, computational resources and costs can be reduced by utilizing multi-domain models that perform well across domains.

arxiv情報

著者 Albert Lu,Meng Jiang
発行日 2023-06-28 01:26:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.CL パーマリンク