Incorporating Annotator Uncertainty into Representations of Discourse Relations

要約

談話関係のアノテーションは、特に専門家でないアノテーターにとって、難しい作業であることが知られています。
この論文では、音声会話データの談話関係のアノテーションに関する初心者のアノテーターの不確実性を調査します。
対話のコンテキスト (単一のターン、話者内でのターンのペア、話者間でのターンのペア) が信頼度スコアの重要な予測因子であることがわかりました。
信頼度スコアと会話のコンテキストに関する情報を組み込んだ共起統計から談話関係の分散表現を計算します。
これらの表現を使用して階層的クラスタリング分析を実行し、信頼度および対話文脈に関する情報で談話関係表現を重み付けすることで、談話関係ラベルに関するアノテーターの不確実性が首尾一貫してモデル化されることを示します。

要約(オリジナル)

Annotation of discourse relations is a known difficult task, especially for non-expert annotators. In this paper, we investigate novice annotators’ uncertainty on the annotation of discourse relations on spoken conversational data. We find that dialogue context (single turn, pair of turns within speaker, and pair of turns across speakers) is a significant predictor of confidence scores. We compute distributed representations of discourse relations from co-occurrence statistics that incorporate information about confidence scores and dialogue context. We perform a hierarchical clustering analysis using these representations and show that weighting discourse relation representations with information about confidence and dialogue context coherently models our annotators’ uncertainty about discourse relation labels.

arxiv情報

著者 S. Magalí López Cortez,Cassandra L. Jacobs
発行日 2023-08-14 14:39:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク