Leveraging Domain Knowledge for Inclusive and Bias-aware Humanitarian Response Entry Classification

要約

人道危機における正確かつ迅速な状況分析は、人道援助を効率的に提供するために極めて重要であり、人道的責務と誰も取り残さない(LNOB)原則の基礎となります。
このデータ分析は、人道的オントロジーに従ってテキスト データを分類するなど、言語処理システムから大きな利益を得ることができます。
ただし、一般的な大規模言語モデル (LLM) を単に微調整するだけでこれに取り組むには、かなりの実用的かつ倫理的な問題、特にデータがまばらで複雑なサブドメインに対する有効性の欠如と、社会的偏見や望ましくない関連付けのエンコードが伴います。
この取り組みでは、人道的データ分析のための効果的で倫理を意識したシステムを提供することを目指しています。
私たちはこれに、(1) 人道分析フレームワークに合わせて調整された新しいアーキテクチャを導入し、(2) HumBert と呼ばれる新しい人道支援に特化した LLM を作成およびリリースし、(3) 偏見を測定および軽減する体系的な方法を提案することによってアプローチします。
私たちの実験結果は、強力なベースライン モデルと比較して、ゼロショットおよびフル トレーニング設定でのアプローチのパフォーマンスが優れていることを示していると同時に、結果として得られる LLM にバイアスが存在することも明らかにしています。
ターゲットを絞った反事実データ増強アプローチを利用することで、パフォーマンスを損なうことなくこれらのバイアスを大幅に削減します。

要約(オリジナル)

Accurate and rapid situation analysis during humanitarian crises is critical to delivering humanitarian aid efficiently and is fundamental to humanitarian imperatives and the Leave No One Behind (LNOB) principle. This data analysis can highly benefit from language processing systems, e.g., by classifying the text data according to a humanitarian ontology. However, approaching this by simply fine-tuning a generic large language model (LLM) involves considerable practical and ethical issues, particularly the lack of effectiveness on data-sparse and complex subdomains, and the encoding of societal biases and unwanted associations. In this work, we aim to provide an effective and ethically-aware system for humanitarian data analysis. We approach this by (1) introducing a novel architecture adjusted to the humanitarian analysis framework, (2) creating and releasing a novel humanitarian-specific LLM called HumBert, and (3) proposing a systematic way to measure and mitigate biases. Our experiments’ results show the better performance of our approach on zero-shot and full-training settings in comparison with strong baseline models, while also revealing the existence of biases in the resulting LLMs. Utilizing a targeted counterfactual data augmentation approach, we significantly reduce these biases without compromising performance.

arxiv情報

著者 Nicolò Tamagnone,Selim Fekih,Ximena Contla,Nayid Orozco,Navid Rekabsaz
発行日 2023-05-30 13:16:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク