要約
NLPモデルが実際のアプリケーションにますます統合されるようになると、モデルがしばしば矛盾する情報に依存して生成するという事実に対処する必要があることが明らかになります。
競合は、状況の複雑さ、説明して対処する必要がある変化、データ注釈の困難、および生成された出力の間違いを反映する可能性があります。
すべての場合において、データの競合を無視すると、モデルの望ましくない行動が発生し、NLPモデルの信頼性と信頼性が損なわれる可能性があります。
この調査は、これらの競合を3つの重要な領域に分類します。(1)事実上の矛盾、主観的バイアス、および複数の視点が矛盾をもたらすWeb上の自然なテキスト。
(2)アノテーターの意見の不一致、間違い、および社会的バイアスがモデルトレーニングに影響を与える人間が解決したデータ。
(3)モデルの相互作用。幻覚と知識の競合が展開中に出現する。
以前の研究では、これらの紛争のいくつかが単独で取り組んでいますが、矛盾する情報のより広範な概念の下でそれらを統合し、それらの意味を分析し、緩和戦略について議論します。
競合する情報をより効果的に推論し、調整できる紛争に対応するNLPシステムを開発するための重要な課題と将来の方向性を強調します。
要約(オリジナル)
As NLP models become increasingly integrated into real-world applications, it becomes clear that there is a need to address the fact that models often rely on and generate conflicting information. Conflicts could reflect the complexity of situations, changes that need to be explained and dealt with, difficulties in data annotation, and mistakes in generated outputs. In all cases, disregarding the conflicts in data could result in undesired behaviors of models and undermine NLP models’ reliability and trustworthiness. This survey categorizes these conflicts into three key areas: (1) natural texts on the web, where factual inconsistencies, subjective biases, and multiple perspectives introduce contradictions; (2) human-annotated data, where annotator disagreements, mistakes, and societal biases impact model training; and (3) model interactions, where hallucinations and knowledge conflicts emerge during deployment. While prior work has addressed some of these conflicts in isolation, we unify them under the broader concept of conflicting information, analyze their implications, and discuss mitigation strategies. We highlight key challenges and future directions for developing conflict-aware NLP systems that can reason over and reconcile conflicting information more effectively.
arxiv情報
著者 | Siyi Liu,Dan Roth |
発行日 | 2025-04-28 04:24:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google