要約
インターネットの急速な発展に伴い、オンライン・ソーシャルメディアは多様なコンテンツを通じて様々な背景を持つ人々を受け入れている。絵文字が文化的、言語的な境界を越えて豊富な情報を持つことから、絵文字の利用が増加する傾向が顕著になっている。しかし、絵文字に関する現在の研究は、単一の絵文字の予測に限られており、興味深い言語現象のさらなる研究のために利用可能なデータリソースは限られている。このため、我々は大規模な言語モデルから大規模なテキスト-絵文字並列コーパスText2Emojiを合成する。並列コーパスに基づき、テキストと絵文字の双方向翻訳に特化した配列対配列モデルEmojiLMを抽出する。公開ベンチマークと人間評価による広範な実験により、我々の提案モデルが強力なベースラインを凌駕し、並列コーパスが絵文字関連の下流タスクに有益であることを実証する。
要約(オリジナル)
With the rapid development of the internet, online social media welcomes people with different backgrounds through its diverse content. The increasing usage of emoji becomes a noticeable trend thanks to emoji’s rich information beyond cultural or linguistic borders. However, the current study on emojis is limited to single emoji prediction and there are limited data resources available for further study of the interesting linguistic phenomenon. To this end, we synthesize a large text-emoji parallel corpus, Text2Emoji, from a large language model. Based on the parallel corpus, we distill a sequence-to-sequence model, EmojiLM, which is specialized in the text-emoji bidirectional translation. Extensive experiments on public benchmarks and human evaluation demonstrate that our proposed model outperforms strong baselines and the parallel corpus benefits emoji-related downstream tasks.
arxiv情報
著者 | Letian Peng,Zilong Wang,Hang Liu,Zihan Wang,Jingbo Shang |
発行日 | 2023-11-03 07:06:51+00:00 |
arxivサイト | arxiv_id(pdf) |