KPC-cF: Aspect-Based Sentiment Analysis via Implicit-Feature Alignment with Corpus Filtering

要約

韓国産業レビューのためのアスペクトベース感情分析 (ABSA) に関する調査は、既存の文献には著しく欠けています。
私たちの研究は、韓国語などの低リソース言語における ABSA の直感的で効果的なフレームワークを提案しています。
翻訳されたベンチマークとラベルのない韓国語データを統合することで、予測ラベルを最適化します。
翻訳されたデータに基づいて微調整されたモデルを使用して、実際の韓国語 NLI セットに擬似ラベルを付けました。
その後、この疑似 NLI セットに LaBSE および \MSP{} ベースのフィルタリングを暗黙的特徴として適用し、追加のトレーニングを通じてアスペクト カテゴリの検出と極性の決定を強化しました。
デュアル フィルタリングを組み込んだこのモデルは、データセットのギャップを埋め、最小限のリソースで韓国の ABSA で肯定的な結果を達成しました。
私たちのアプローチは、追加のデータ インジェクション パイプラインを通じて、高リソースのデータを活用し、低リソース言語国の企業か個人かを問わず、コミュニティ内で効果的なモデルを構築することを目的としています。
英語の ABSA と比較して、私たちのフレームワークでは F1 スコアと精度に約 3\% の違いが見られました。
韓国 ABSA のデータセットとコードをこのリンクでリリースします。

要約(オリジナル)

Investigations into Aspect-Based Sentiment Analysis (ABSA) for Korean industrial reviews are notably lacking in the existing literature. Our research proposes an intuitive and effective framework for ABSA in low-resource languages such as Korean. It optimizes prediction labels by integrating translated benchmark and unlabeled Korean data. Using a model fine-tuned on translated data, we pseudo-labeled the actual Korean NLI set. Subsequently, we applied LaBSE and \MSP{}-based filtering to this pseudo-NLI set as implicit feature, enhancing Aspect Category Detection and Polarity determination through additional training. Incorporating dual filtering, this model bridged dataset gaps, achieving positive results in Korean ABSA with minimal resources. Through additional data injection pipelines, our approach aims to utilize high-resource data and construct effective models within communities, whether corporate or individual, in low-resource language countries. Compared to English ABSA, our framework showed an approximately 3\% difference in F1 scores and accuracy. We release the dataset and our code for Korean ABSA, at this link.

arxiv情報

著者 Kibeom Nam
発行日 2024-11-15 17:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク