Interpretable Unified Language Checking

要約

タイトル:解釈可能な統合言語チェック
要約:

– 近年、大型言語モデル(LLM)が生成する望ましくない行動(非事実的、バイアスがある、憎悪的な言語)に関する懸念が起こっている。
– しかし、自然言語と社会知識の潜在的な表現に基づいているため、LLMは本質的にマルチタスク言語チェッカーであることがわかる。
– 私たちは、人間と機械が生成する言語の両方に対して、言語入力が事実の確認と公平性を備えているかどうかをチェックする解釈可能で統一された言語チェック(UniLC)方法を提案する。
– これまで、公平性と事実チェックのタスクは、専用のモデルで別々に処理されてきたが、私たちは、簡単なフューショット単位のプロンプトを使用することで、事実チェック、ステレオタイプ検出、ヘイトスピーチ検出の組み合わせに高いパフォーマンスを発揮できることを発見した。
– この論文で提案されている「1/2ショット」マルチタスク言語チェック法により、GPT3.5ターボモデルは、完全に監視されたベースラインよりも多数の言語タスクで優れた成果を出している。
– 簡単なアプローチと結果から、強力な潜在知識表現に基づいて、LLMは、誤情報、ステレオタイプ、ヘイトスピーチを検出するための適応型かつ説明可能なツールである可能性がある。

要約(オリジナル)

Despite recent concerns about undesirable behaviors generated by large language models (LLMs), including non-factual, biased, and hateful language, we find LLMs are inherent multi-task language checkers based on their latent representations of natural and social knowledge. We present an interpretable, unified, language checking (UniLC) method for both human and machine-generated language that aims to check if language input is factual and fair. While fairness and fact-checking tasks have been handled separately with dedicated models, we find that LLMs can achieve high performance on a combination of fact-checking, stereotype detection, and hate speech detection tasks with a simple, few-shot, unified set of prompts. With the “1/2-shot” multi-task language checking method proposed in this work, the GPT3.5-turbo model outperforms fully supervised baselines on several language tasks. The simple approach and results suggest that based on strong latent knowledge representations, an LLM can be an adaptive and explainable tool for detecting misinformation, stereotypes, and hate speech.

arxiv情報

著者 Tianhua Zhang,Hongyin Luo,Yung-Sung Chuang,Wei Fang,Luc Gaitskell,Thomas Hartvigsen,Xixin Wu,Danny Fox,Helen Meng,James Glass
発行日 2023-04-07 16:47:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク