要約
大規模言語モデル (LLM) は、質問応答と推論タスクに非常に熟達していますが、状況に応じて推論する場合、人間の期待は関連する文化的共通基盤に応じて異なります。
人間の言語は多様な文化に関連付けられているため、LLM も文化的に多様な推論者である必要があります。
この論文では、幅広い最先端の多言語 LLM (mLLM) が会話の文脈でことわざやことわざを推論する能力を研究します。
私たちの実験では、(1) mLLM は限られたことわざを「知っている」が、ことわざを暗記することは、会話の文脈の中でそれを理解することを意味するものではない。
(2) mLLM は、比喩的なことわざや格言を使って推論するのに苦労し、(正しい答えを選ぶように求めるのではなく) 間違った答えを選ぶように求められると、苦戦します。
(3) 他の言語から翻訳されたことわざやことわざについて推論する際、mLLM には「文化のギャップ」が存在します。
私たちは、6 つの異なる言語の会話の文脈でことわざを理解するための評価データセット MAPS (MulticultrAl Proverbs and Sayings) を構築し、公開しています。
要約(オリジナル)
Large language models (LLMs) are highly adept at question answering and reasoning tasks, but when reasoning in situational context, human expectations vary depending on the relevant cultural common ground. As human languages are associated with diverse cultures, LLMs should also be culturally-diverse reasoners. In this paper, we study the ability of a wide range of state-of-the-art multilingual LLMs (mLLMs) to reason with proverbs and sayings in a conversational context. Our experiments reveal that: (1) mLLMs ‘knows’ limited proverbs and memorizing proverbs does not mean understanding them within a conversational context; (2) mLLMs struggle to reason with figurative proverbs and sayings, and when asked to select the wrong answer (instead of asking it to select the correct answer); and (3) there is a ‘culture gap’ in mLLMs when reasoning about proverbs and sayings translated from other languages. We construct and release our evaluation dataset MAPS (MulticultrAl Proverbs and Sayings) for proverb understanding with conversational context for six different languages.
arxiv情報
著者 | Chen Cecilia Liu,Fajri Koto,Timothy Baldwin,Iryna Gurevych |
発行日 | 2023-09-15 17:45:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google