Beyond Automated Evaluation Metrics: Evaluating Topic Models On Practical Social Science Content Analysis Tasks

要約

トピック モデルはテキスト コレクションを理解するための人気のあるツールですが、その評価は議論の点となっています。
コヒーレンスなどの自動評価メトリクスがよく使用されますが、ニューラル トピック モデル (NTM) ではその有効性が疑問視されており、実世界のアプリケーションではモデルの利点が見落とされる可能性があります。
この目的を達成するために、対話型のタスクベースの設定でニューラル、教師あり、および古典的なトピック モデルの最初の評価を実施します。
私たちはトピック モデルと分類子を組み合わせて、人間によるコンテンツ分析とドキュメントの注釈付けを支援する機能をテストします。
シミュレートされた実際のユーザーと専門家のパイロット研究から、コンテキスト ニューラル トピック モデルはクラスター評価メトリクスと人間の評価に関して最善の結果をもたらします。
ただし、コヒーレンス スコアが示す内容に反して、シミュレーション実験とユーザー調査の結果では、LDA は他の 2 つの NTM と競合します。
現在の自動化されたメトリクスはトピック モデリング機能の完全な全体像を提供するものではありませんが、NTM を正しく選択すれば、実際のタスクでは従来のモデルよりも優れている可能性があることを示します。

要約(オリジナル)

Topic models are a popular tool for understanding text collections, but their evaluation has been a point of contention. Automated evaluation metrics such as coherence are often used, however, their validity has been questioned for neural topic models (NTMs) and can overlook the benefits of a model in real world applications. To this end, we conduct the first evaluation of neural, supervised and classical topic models in an interactive task based setting. We combine topic models with a classifier and test their ability to help humans conduct content analysis and document annotation. From simulated, real user and expert pilot studies, the Contextual Neural Topic Model does the best on cluster evaluation metrics and human evaluations; however, LDA is competitive with two other NTMs under our simulated experiment and user study results, contrary to what coherence scores suggest. We show that current automated metrics do not provide a complete picture of topic modeling capabilities, but the right choice of NTMs can be better than classical models on practical tasks.

arxiv情報

著者 Zongxia Li,Andrew Mao,Daniel Stephens,Pranav Goel,Emily Walpole,Alden Dima,Juan Fung,Jordan Boyd-Graber
発行日 2024-01-29 17:54:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.HC パーマリンク