Multi-lingual and Multi-cultural Figurative Language Understanding

要約

比喩的な言語は人間のコミュニケーションに浸透していますが、同時に NLP ではあまり研究されていません。
データセットは、言語モデル (LM) における比喩的な言語処理の測定と改善に向けた進歩を加速するために、英語で作成されました。
ただし、比喩的な言葉の使用は私たちの文化的および社会的経験の表現であるため、これらのフレーズを普遍的に適用することは困難です。
この作業では、さまざまな文化に関連する 7 つの多様な言語 (ヒンディー語、インドネシア語、ジャワ語、カンナダ語、スンダ語、スワヒリ語、ヨルバ語) の比喩言語推論データセット \datasetname を作成します。
私たちのデータセットは、各言語が比喩表現に関して文化的および地域的な概念に依存しており、同じ地域に由来する言語間の重複が最も多いことを明らかにしています。
私たちは、ゼロショットおよびフューショット設定で比喩的な言語を解釈する多言語LMの能力を評価します。
すべての言語は英語と比較して重大な欠陥を示しており、事前トレーニングおよび微調整データの利用可能性を反映してパフォーマンスにばらつきがあり、LM がトレーニング中により広範囲の言語的および文化的変化にさらされる必要性が強調されています。

要約(オリジナル)

Figurative language permeates human communication, but at the same time is relatively understudied in NLP. Datasets have been created in English to accelerate progress towards measuring and improving figurative language processing in language models (LMs). However, the use of figurative language is an expression of our cultural and societal experiences, making it difficult for these phrases to be universally applicable. In this work, we create a figurative language inference dataset, \datasetname, for seven diverse languages associated with a variety of cultures: Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili and Yoruba. Our dataset reveals that each language relies on cultural and regional concepts for figurative expressions, with the highest overlap between languages originating from the same region. We assess multilingual LMs’ abilities to interpret figurative language in zero-shot and few-shot settings. All languages exhibit a significant deficiency compared to English, with variations in performance reflecting the availability of pre-training and fine-tuning data, emphasizing the need for LMs to be exposed to a broader range of linguistic and cultural variation during training.

arxiv情報

著者 Anubha Kabra,Emmy Liu,Simran Khanuja,Alham Fikri Aji,Genta Indra Winata,Samuel Cahyawijaya,Anuoluwapo Aremu,Perez Ogayo,Graham Neubig
発行日 2023-05-25 15:30:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク