Goal-Driven Explainable Clustering via Language Descriptions

要約

教師なしクラスタリングは大規模なコーパスを探索するために広く使用されていますが、既存の定式化ではユーザーの目的が考慮されておらず、クラスターの意味も説明されていません。
我々は、目標と説明の両方を自由形式の言語記述として表す、新しいタスクの定式化である「説明付きの目標駆動クラスタリング」(GoalEx) を提案します。
たとえば、要約システムによって発生したエラーを分類するために、GoalEx への入力は、システムが生成した要約に対するアノテーターが書いたコメントのコーパスと、「アノテーターが要約が不完全であると考える理由に基づいてコメントをクラスター化する」という目標の説明です。
‘;
出力はそれぞれ説明 (「このクラスターでは、概要に重要なコンテキスト情報が欠けていると記載されています。」) を含むテキスト クラスターであり、これは目標に関連しており、どのコメントがクラスターに属する (属さない) かを正確に説明します。
GoalEx に取り組むために、「[コーパス サブセット] + [ゴール] + それぞれがクラスターを表す説明のリストをブレインストーミングする」という言語モデルを作成します。
次に、各サンプルがその説明に基づいてクラスターに属するかどうかを分類します。
最後に、整数線形計画法を使用して候補クラスターのサブセットを選択し、重複を最小限に抑えながらほとんどのサンプルをカバーします。
ラベルの有無にかかわらず、コーパスに対する自動評価と人間による評価の両方で、私たちの方法は、従来の方法よりも正確で目標に関連した説明を生成します。
データと実装は https://github.com/ZihanWangKi/GoalEx でリリースされています。

要約(オリジナル)

Unsupervised clustering is widely used to explore large corpora, but existing formulations neither consider the users’ goals nor explain clusters’ meanings. We propose a new task formulation, ‘Goal-Driven Clustering with Explanations’ (GoalEx), which represents both the goal and the explanations as free-form language descriptions. For example, to categorize the errors made by a summarization system, the input to GoalEx is a corpus of annotator-written comments for system-generated summaries and a goal description ‘cluster the comments based on why the annotators think the summary is imperfect.”; the outputs are text clusters each with an explanation (‘this cluster mentions that the summary misses important context information.’), which relates to the goal and precisely explain which comments should (not) belong to a cluster. To tackle GoalEx, we prompt a language model with ‘[corpus subset] + [goal] + Brainstorm a list of explanations each representing a cluster.’; then we classify whether each sample belongs to a cluster based on its explanation; finally, we use integer linear programming to select a subset of candidate clusters to cover most samples while minimizing overlaps. Under both automatic and human evaluation on corpora with or without labels, our method produces more accurate and goal-related explanations than prior methods. We release our data and implementation at https://github.com/ZihanWangKi/GoalEx.

arxiv情報

著者 Zihan Wang,Jingbo Shang,Ruiqi Zhong
発行日 2023-11-13 18:27:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク