Human-in-the-Loop Synthetic Text Data Inspection with Provenance Tracking

要約

データ拡張技術は、既存のテキストに変換を適用して追加データを生成します。
変換によって低品質のテキストが生成される可能性があり、テキストの意味が変更されたり、テキストが人間の理解を超えて破壊されたりする可能性があります。
合成的に生成されたテキストとそれに対応するラベルの分析は時間がかかり、手間がかかります。
間違ったラベルが付いたテキストを選別するために、人間参加型のデータ検査手法である INSPECTOR を開発しました。
INSPECTOR は、出所追跡技術の長所と支援ラベル付けを組み合わせたものです。
INSPECTOR を使用すると、ユーザーは変換の出所、つまり元のテキストに適用された変換、または特徴の出所、つまり元のテキストの言語的特徴によって関連テキストをグループ化できます。
支援ラベル付けの場合、INSPECTOR はデータ品質を近似するメトリクスを計算し、ユーザーが各テキストの対応するラベルを大規模な言語モデルの予測と比較できるようにします。
ユーザー調査では、INSPECTOR は、感情分析タスクでは 3 倍、ヘイトスピーチ検出タスクでは 4 倍、正しいラベルが識別されたテキストの数を増加させました。
参加者は、合成的に生成されたテキストを共通の変換によってグループ化することが最も有用な手法であることに気づきました。
驚くべきことに、共通の言語的特徴によってテキストをグループ化することは役に立たないと認識されていました。
これまでの研究とは対照的に、私たちの研究では、人間による検査作業の必要性を回避できる技術はないことがわかりました。
これにより、データ出所の分析と支援ラベル付けの両方を組み合わせて人間による検査の労力を軽減する INSPECTOR の設計が検証されました。

要約(オリジナル)

Data augmentation techniques apply transformations to existing texts to generate additional data. The transformations may produce low-quality texts, where the meaning of the text is changed and the text may even be mangled beyond human comprehension. Analyzing the synthetically generated texts and their corresponding labels is slow and demanding. To winnow out texts with incorrect labels, we develop INSPECTOR, a human-in-the-loop data inspection technique. INSPECTOR combines the strengths of provenance tracking techniques with assistive labeling. INSPECTOR allows users to group related texts by their transformation provenance, i.e., the transformations applied to the original text, or feature provenance, the linguistic features of the original text. For assistive labeling, INSPECTOR computes metrics that approximate data quality, and allows users to compare the corresponding label of each text against the predictions of a large language model. In a user study, INSPECTOR increases the number of texts with correct labels identified by 3X on a sentiment analysis task and by 4X on a hate speech detection task. The participants found grouping the synthetically generated texts by their common transformation to be the most useful technique. Surprisingly, grouping texts by common linguistic features was perceived to be unhelpful. Contrary to prior work, our study finds that no single technique obviates the need for human inspection effort. This validates the design of INSPECTOR which combines both analysis of data provenance and assistive labeling to reduce human inspection effort.

arxiv情報

著者 Hong Jin Kang,Fabrice Harel-Canada,Muhammad Ali Gulzar,Violet Peng,Miryung Kim
発行日 2024-04-29 17:16:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, cs.SE パーマリンク