要約
ファクトチェックは、客観的な不正確さに対処するために、誤った情報や偽情報の文脈で広く研究されています。
ただし、よりソフトな形式の誤った情報には、事実としては正しいものの、明確さや関連性などの特定の特徴が欠けている応答が含まれます。
この問題は、金融、政治、スポーツ、その他の分野での記者会見などの正式な質疑応答 (QA) の場でよく見られ、主観的な回答によって透明性が曖昧になる可能性があります。
それにもかかわらず、複数の次元にわたる主観的な特徴に対して手動でアノテーションが付けられたデータセットが不足しています。
このギャップに対処するために、会社の代表者による回答は主観的な解釈や精査の余地があることが多いため、Earnings Call Transcripts (ECT) の QA セッションに関する人間による注釈付きデータセットである SubjECTive-QA を導入します。
このデータセットには、6 つの特徴 (断定的、慎重、楽観的、具体的、明確、関連性) にわたる長文 QA ペアの 49,446 個のアノテーションが含まれています。
これらの機能は、さまざまなドメインにわたる QA セッション中に提供される回答のトーンを反映する主要な属性を網羅するように慎重に選択されています。
私たちの調査結果では、最もパフォーマンスの高い事前トレーニング済み言語モデル (PLM) である RoBERTa ベースは、Relevant や Clear などの主観性の低い機能に関して、Llama-3-70b-Chat と同様の加重 F1 スコアを持ち、平均差があることがわかりました。
加重 F1 スコアでは 2.17% でした。
モデルは、具体性や断定性などの主観性の高い特徴で大幅にパフォーマンスが向上し、重み付けされた F1 スコアの平均差は 10.01% でした。
さらに、White House Press Briefings と Gaggles の QA を使用して SubjECTive-QA の一般化可能性をテストすると、各機能の最良のモデルを使用して平均加重 F1 スコアが 65.97% となり、金融領域を超えた幅広い適用可能性が実証されました。
Subjective-QA は CC BY 4.0 ライセンスに基づいて公開されています
要約(オリジナル)
Fact-checking is extensively studied in the context of misinformation and disinformation, addressing objective inaccuracies. However, a softer form of misinformation involves responses that are factually correct but lack certain features such as clarity and relevance. This challenge is prevalent in formal Question-Answer (QA) settings such as press conferences in finance, politics, sports, and other domains, where subjective answers can obscure transparency. Despite this, there is a lack of manually annotated datasets for subjective features across multiple dimensions. To address this gap, we introduce SubjECTive-QA, a human annotated dataset on Earnings Call Transcripts’ (ECTs) QA sessions as the answers given by company representatives are often open to subjective interpretations and scrutiny. The dataset includes 49,446 annotations for long-form QA pairs across six features: Assertive, Cautious, Optimistic, Specific, Clear, and Relevant. These features are carefully selected to encompass the key attributes that reflect the tone of the answers provided during QA sessions across different domain. Our findings are that the best-performing Pre-trained Language Model (PLM), RoBERTa-base, has similar weighted F1 scores to Llama-3-70b-Chat on features with lower subjectivity, such as Relevant and Clear, with a mean difference of 2.17% in their weighted F1 scores. The models perform significantly better on features with higher subjectivity, such as Specific and Assertive, with a mean difference of 10.01% in their weighted F1 scores. Furthermore, testing SubjECTive-QA’s generalizability using QAs from White House Press Briefings and Gaggles yields an average weighted F1 score of 65.97% using our best models for each feature, demonstrating broader applicability beyond the financial domain. SubjECTive-QA is publicly available under the CC BY 4.0 license
arxiv情報
著者 | Huzaifa Pardawala,Siddhant Sukhani,Agam Shah,Veer Kejriwal,Abhishek Pillai,Rohan Bhasin,Andrew DiBiasio,Tarun Mandapati,Dhruv Adha,Sudheer Chava |
発行日 | 2025-01-23 18:56:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google