I run as fast as a rabbit, can you? A Multilingual Simile Dialogue Dataset

要約

直喩とは、2 つの異なるもの (テノールとビークルと呼ばれます) を共有特性を通じて比較する比喩です。
テナーとビークルは通常、「like」や「as」などの比較語で接続されます。
直喩現象は、テノールと乗り物が口頭のフレーズや文であったり、別の話者によって言及されたり、別の文に存在したり、逆の順序で発生したりする、現実の対話シーンでは独特かつ複雑です。
しかし、現在の直喩研究は通常、3 つの組(テノール、不動産、車両)または単一の文での直喩に焦点を当てており、テナーと車両は通常実体または名詞句であり、実際のシナリオにおける複雑な直喩現象を反映することはできません。
この論文では、複雑な直喩現象の研究を容易にするための、新規で高品質な多言語直喩対話 (MSD) データセットを提案します。
MSD は手動で注釈が付けられた最大の直喩データ ($\sim$20K) であり、英語と中国語の両方のデータが含まれています。
一方、MSD データは、直喩を使用する際の対話システムの能力をテストするために対話タスクに使用することもできます。
MSD を使用して 3 つの直喩タスク (認識、解釈、生成) と 2 つの対話タスク (検索と生成) を設計します。
タスクごとに、強力な事前トレーニング済みモデルまたは最先端のモデルからの実験結果が提供されます。
この実験は MSD の挑戦を実証しており、GitHub でデータ/コードをリリースしました。

要約(オリジナル)

A simile is a figure of speech that compares two different things (called the tenor and the vehicle) via shared properties. The tenor and the vehicle are usually connected with comparator words such as ‘like’ or ‘as’. The simile phenomena are unique and complex in a real-life dialogue scene where the tenor and the vehicle can be verbal phrases or sentences, mentioned by different speakers, exist in different sentences, or occur in reversed order. However, the current simile research usually focuses on similes in a triplet tuple (tenor, property, vehicle) or a single sentence where the tenor and vehicle are usually entities or noun phrases, which could not reflect complex simile phenomena in real scenarios. In this paper, we propose a novel and high-quality multilingual simile dialogue (MSD) dataset to facilitate the study of complex simile phenomena. The MSD is the largest manually annotated simile data ($\sim$20K) and it contains both English and Chinese data. Meanwhile, the MSD data can also be used on dialogue tasks to test the ability of dialogue systems when using similes. We design 3 simile tasks (recognition, interpretation, and generation) and 2 dialogue tasks (retrieval and generation) with MSD. For each task, we provide experimental results from strong pre-trained or state-of-the-art models. The experiments demonstrate the challenge of MSD and we have released the data/code on GitHub.

arxiv情報

著者 Longxuan Ma,Weinan Zhang,Shuhan Zhou,Churui Sun,Changxin Ke,Ting Liu
発行日 2023-06-09 05:04:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク