Goal Driven Discovery of Distributional Differences via Language Descriptions

要約

大規模なコーパスのマイニングは有用な発見を生み出すことができますが、人間にとっては時間がかかります。
2 つの大きなコーパスの違いを目標駆動型の方法で自動的に発見する新しいタスク D5 を作成します。
タスク入力は、研究目標「$\textit{薬 A と薬 B の副作用を比較する}$」と、コーパス ペア (各薬を服用した後の患者の自己申告反応の 2 つの大きなコレクション) から構成される問題です。
出力は、これらのコーパスがどのように異なるかの言語記述 (発見) です (薬 A ‘$\textit{パラノイアの感情に言及する}$’ を服用している患者がより頻繁に)。
D5 システムを構築し、そのパフォーマンスを定量的に測定するために、1) ビジネス、社会科学、人文科学、機械学習、および健康に及ぶ 675 のオープンエンドの問題を集約するメタデータセット OpenD5 を提供し、2)
統一された評価指標のセット: 有効性、関連性、新規性、重要性。
データセットと統合された指標により、言語モデルが目標を使用して、より関連性が高く、斬新で重要な候補の発見を提案できることを確認します。
最後に、私たちのシステムは、議論のトピックにおける時間的および人口統計学的な違い、スピーチにおける政治的スタンスとステレオタイプ、コマーシャル レビューにおける洞察、および NLP モデルにおけるエラー パターンを含む、OpenD5 の幅広いアプリケーションについて、これまで作成者が知らなかった発見を生み出します。

要約(オリジナル)

Mining large corpora can generate useful discoveries but is time-consuming for humans. We formulate a new task, D5, that automatically discovers differences between two large corpora in a goal-driven way. The task input is a problem comprising a research goal ‘$\textit{comparing the side effects of drug A and drug B}$’ and a corpus pair (two large collections of patients’ self-reported reactions after taking each drug). The output is a language description (discovery) of how these corpora differ (patients taking drug A ‘$\textit{mention feelings of paranoia}$’ more often). We build a D5 system, and to quantitatively measure its performance, we 1) contribute a meta-dataset, OpenD5, aggregating 675 open-ended problems ranging across business, social sciences, humanities, machine learning, and health, and 2) propose a set of unified evaluation metrics: validity, relevance, novelty, and significance. With the dataset and the unified metrics, we confirm that language models can use the goals to propose more relevant, novel, and significant candidate discoveries. Finally, our system produces discoveries previously unknown to the authors on a wide range of applications in OpenD5, including temporal and demographic differences in discussion topics, political stances and stereotypes in speech, insights in commercial reviews, and error patterns in NLP models.

arxiv情報

著者 Ruiqi Zhong,Peter Zhang,Steve Li,Jinwoo Ahn,Dan Klein,Jacob Steinhardt
発行日 2023-02-28 01:32:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク