Evaluating Dialect Robustness of Language Models via Conversation Understanding

要約

英語に関して最高のパフォーマンスを報告する LLM の数が増え続けているため、英語のさまざまな方言に対して平等にパフォーマンスを発揮する能力 ($\textit{i.e.}$、方言の堅牢性) を確認する必要があります。
具体的には、「タブー」という単語当てゲームをする人間同士の英語(アメリカ英語またはインド英語)の会話を使用します。
2 つの評価タスクを定式化します。ターゲット単語予測 (TWP) ($\textit{i.e}$、会話内のマスクされたターゲット単語を予測します) とターゲット単語選択 (TWS) ($\textit{i.e}$、最も可能性の高い単語を選択します)
候補単語のセットの中から、会話内のマスクされたターゲット単語)。
タブーを扱う会話の既存の弁証法データセットである MD3 を拡張して、en-US および en-IN サブセットを備えた MD3 のターゲット単語がマスクされたバージョンである M-MD3 を導入します。
en-MV (en-US が変換されて方言情報が含まれる) と en-TR (en-IN から方言情報が削除される) の 2 つのサブセットを作成します。
1 つのオープンソース (Llama3) と 2 つのクローズドソース (GPT-4/3.5) LLM を評価します。
LLM は、TWP タスクと TWS タスクの両方において、すべての設定においてインド英語よりもアメリカ英語のパフォーマンスが大幅に優れており、インドの方言英語に対して疎外されています。
GPT ベースのモデルが最高のパフォーマンスを発揮しますが、微調整後は比較的小規模なモデルの方がより公平に動作します。
私たちのエラー分析では、方言データを使用して微調整した後、LLM が方言をよりよく理解できることがわかりました。
私たちの評価方法論は、既存の対話データセットを使用して言語モデルの属性を調べる新しい方法を示しています。

要約(オリジナル)

With an evergrowing number of LLMs reporting superlative performance for English, their ability to perform equitably for different dialects of English ($\textit{i.e.}$, dialect robustness) needs to be ascertained. Specifically, we use English language (US English or Indian English) conversations between humans who play the word-guessing game of ‘taboo’. We formulate two evaluative tasks: target word prediction (TWP) ($\textit{i.e.}$, predict the masked target word in a conversation) and target word selection (TWS) ($\textit{i.e.}$, select the most likely masked target word in a conversation, from among a set of candidate words). Extending MD3, an existing dialectic dataset of taboo-playing conversations, we introduce M-MD3, a target-word-masked version of MD3 with the en-US and en-IN subsets. We create two subsets: en-MV (where en-US is transformed to include dialectal information) and en-TR (where dialectal information is removed from en-IN). We evaluate one open-source (Llama3) and two closed-source (GPT-4/3.5) LLMs. LLMs perform significantly better for US English than Indian English for both TWP and TWS tasks, for all settings, exhibiting marginalisation against the Indian dialect of English. While GPT-based models perform the best, the comparatively smaller models work more equitably after fine-tuning. Our error analysis shows that the LLMs can understand the dialect better after fine-tuning using dialectal data. Our evaluation methodology exhibits a novel way to examine attributes of language models using pre-existing dialogue datasets.

arxiv情報

著者 Dipankar Srirag,Nihar Ranjan Sahoo,Aditya Joshi
発行日 2024-08-21 11:10:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク