要約
ソーシャルメディアは、顧客の要求を満たすために市場調査を行うための多くの情報を提供します。
この調査の実施方法の 1 つは、ドメインの専門家がユーザー生成コンテンツを収集し、複雑で細かいクラス構造に分類することです。
このようなケースの多くでは、複雑な注釈が付けられるデータはほとんどありません。
これを分類にどのようにうまく利用できるかはまだ完全には理解されていません。
a) 多くのきめの細かいクラスと b) 少数の抽象クラスを使用した場合のエキスパート ラベルの分類精度を調べます。
シナリオ b) では、ベースラインとしてドメイン専門家によって与えられた抽象クラス ラベルと、自動階層クラスタリングによって与えられた抽象クラス ラベルを比較します。
これを、クラス構造全体が完全に教師なしクラスタリング アプローチによって与えられる別のベースラインと比較します。
そうすることで、この研究は、複雑な専門家の注釈がどのように潜在的に有益であり、非常に特殊な領域での意見マイニングに最適な方法で利用できるかを示す例として役立ちます。
さまざまな技術や実験を調査したところ、自動化されたクラス抽象化アプローチ、特に教師なしアプローチが、テキスト分類タスクに関するドメイン専門家のベースラインに対して著しく優れたパフォーマンスを発揮することがわかりました。
これは、実際に市場調査員をサポートし、大規模でのきめの細かい自動コンテンツ分析を促進するために、意見マイニング アプリケーションを刺激する可能性があります。
要約(オリジナル)
Social media offer plenty of information to perform market research in order to meet the requirements of customers. One way how this research is conducted is that a domain expert gathers and categorizes user-generated content into a complex and fine-grained class structure. In many of such cases, little data meets complex annotations. It is not yet fully understood how this can be leveraged successfully for classification. We examine the classification accuracy of expert labels when used with a) many fine-grained classes and b) few abstract classes. For scenario b) we compare abstract class labels given by the domain expert as baseline and by automatic hierarchical clustering. We compare this to another baseline where the entire class structure is given by a completely unsupervised clustering approach. By doing so, this work can serve as an example of how complex expert annotations are potentially beneficial and can be utilized in the most optimal way for opinion mining in highly specific domains. By exploring across a range of techniques and experiments, we find that automated class abstraction approaches in particular the unsupervised approach performs remarkably well against domain expert baseline on text classification tasks. This has the potential to inspire opinion mining applications in order to support market researchers in practice and to inspire fine-grained automated content analysis on a large scale.
arxiv情報
著者 | Gerhard Johann Hagerer,Wenbin Le,Hannah Danner,Georg Groh |
発行日 | 2023-07-24 20:08:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google