SynDy: Synthetic Dynamic Dataset Generation Framework for Misinformation Tasks

要約

ディアスポラのコミュニティは、レーダーから外れた誤った情報によって過度に影響を受けており、主流の事実確認の取り組みから無視されることが多く、初期の事実確認の取り組みを拡大することが重要な必要性を生み出しています。
このペーパーでは、最大のフロンティア大規模言語モデル (LLM) の機能を活用して、ローカルの特殊な言語モデルをトレーニングする合成動的データセット生成のフレームワークである SynDy を紹介します。
私たちの知る限り、SynDy は、誤った情報の軽減に直接関連するタスク、つまりクレーム マッチング、トピック クラスタリング、クレーム関係分類などのタスクに対して、LLM を利用してきめの細かい合成ラベルを作成した最初の論文です。
SynDy は、LLM とソーシャル メディア クエリを利用して、これら 3 つのタスクに関する合成ラベルを備えた、遠隔監視されたトピックに焦点を当てたデータセットを自動的に生成し、人間が注釈を付けたデータの数分の 1 のコストで人間主導のファクト チェックをスケールアップするための重要なツールを提供します。
SynDy が生成したラベルでのトレーニングでは、標準ベースラインよりも改善が見られ、人間のラベル (取得が不可能な可能性がある) でのトレーニングと比較して大幅に悪化することはありません。
SynDy は、50 を超える組織で使用され、年間 23 万人を超えるユーザーにサービスを提供し、WhatsApp などのメッセージング アプリを介して人が書いたファクト チェックを自動的に配信する Meedan のチャットボット ヒントラインに統合されています。
SynDy は、当社が導入した Co-Insights ツールキットにも統合され、リソースの少ない組織がコミュニティ向けのヒントを立ち上げることができるようになります。
最後に、SynDy が新たな誤情報の主張と一般的な誤情報のトピックに関する質の高い説明者を照合するなど、追加の事実確認ツールを有効にすることを想定しています。

要約(オリジナル)

Diaspora communities are disproportionately impacted by off-the-radar misinformation and often neglected by mainstream fact-checking efforts, creating a critical need to scale-up efforts of nascent fact-checking initiatives. In this paper we present SynDy, a framework for Synthetic Dynamic Dataset Generation to leverage the capabilities of the largest frontier Large Language Models (LLMs) to train local, specialized language models. To the best of our knowledge, SynDy is the first paper utilizing LLMs to create fine-grained synthetic labels for tasks of direct relevance to misinformation mitigation, namely Claim Matching, Topical Clustering, and Claim Relationship Classification. SynDy utilizes LLMs and social media queries to automatically generate distantly-supervised, topically-focused datasets with synthetic labels on these three tasks, providing essential tools to scale up human-led fact-checking at a fraction of the cost of human-annotated data. Training on SynDy’s generated labels shows improvement over a standard baseline and is not significantly worse compared to training on human labels (which may be infeasible to acquire). SynDy is being integrated into Meedan’s chatbot tiplines that are used by over 50 organizations, serve over 230K users annually, and automatically distribute human-written fact-checks via messaging apps such as WhatsApp. SynDy will also be integrated into our deployed Co-Insights toolkit, enabling low-resource organizations to launch tiplines for their communities. Finally, we envision SynDy enabling additional fact-checking tools such as matching new misinformation claims to high-quality explainers on common misinformation topics.

arxiv情報

著者 Michael Shliselberg,Ashkan Kazemi,Scott A. Hale,Shiri Dori-Hacohen
発行日 2024-05-17 11:14:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.IR パーマリンク