要約
マルチパーティ会話 (MPC) を分類するシステムのパフォーマンスを評価することは、会話の言語的特徴と構造的特徴の間の相互関係により困難です。
従来の評価方法では、相互作用グラフ上の構造の複雑さのさまざまなレベルにわたるモデルの動作の差異が見落とされることがよくありました。
この研究では、会話の特定の構造的属性全体にわたるモデルのパフォーマンスを調査するための方法論的パイプラインを提案します。
概念実証として、モデルの弱点を診断するために、応答選択タスクと宛先認識タスクに焦点を当てます。
この目的を達成するために、オンライン MPC の大規模でオープンなコーパスから、一定のユーザー数と適切な構造の多様性を持つ代表的な診断サブデータセットを抽出します。
さらに、データの最小化という観点から作業を組み立て、プライバシーを保護するために元のユーザー名の使用を回避し、元のテキスト メッセージの使用に代わる方法を提案します。
結果は、応答の選択は会話のテキスト内容に依存する一方、宛先の認識にはその構造的側面を把握する必要があることを示しています。
ゼロショット設定で LLM を使用すると、プロンプトの変化に対する感度がタスクにどのように依存するかがさらに強調されます。
要約(オリジナル)
Assessing the performance of systems to classify Multi-Party Conversations (MPC) is challenging due to the interconnection between linguistic and structural characteristics of conversations. Conventional evaluation methods often overlook variances in model behavior across different levels of structural complexity on interaction graphs. In this work, we propose a methodological pipeline to investigate model performance across specific structural attributes of conversations. As a proof of concept we focus on Response Selection and Addressee Recognition tasks, to diagnose model weaknesses. To this end, we extract representative diagnostic subdatasets with a fixed number of users and a good structural variety from a large and open corpus of online MPCs. We further frame our work in terms of data minimization, avoiding the use of original usernames to preserve privacy, and propose alternatives to using original text messages. Results show that response selection relies more on the textual content of conversations, while addressee recognition requires capturing their structural dimension. Using an LLM in a zero-shot setting, we further highlight how sensitivity to prompt variations is task-dependent.
arxiv情報
著者 | Nicolò Penzo,Maryam Sajedinia,Bruno Lepri,Sara Tonelli,Marco Guerini |
発行日 | 2024-09-27 10:07:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google