Evaluating and Adapting Large Language Models to Represent Folktales in Low-Resource Languages

要約

民話は、文明の社会や文化についての豊富な知識の源です。
デジタル民間伝承の研究は、自動化された技術を使用してこれらの民話をより深く理解することを目的としており、テキスト データの抽象表現に依存しています。
多くの大規模言語モデル (LLM) は、アイルランド語やゲール語などの低リソース言語を表現できると主張していますが、これらの表現がどれほど役立つかを調査するための 2 つの分類タスクと、これらのモデルのパフォーマンスを向上させるための 3 つの適応を紹介します。
より長いシーケンスを扱うようにモデルを適応させ、民話の領域で事前トレーニングを継続すると、分類パフォーマンスが向上することがわかりました。ただし、これらの結果は、非コンテキスト特徴を備えたベースライン SVM の優れたパフォーマンスによって緩和されます。

要約(オリジナル)

Folktales are a rich resource of knowledge about the society and culture of a civilisation. Digital folklore research aims to use automated techniques to better understand these folktales, and it relies on abstract representations of the textual data. Although a number of large language models (LLMs) claim to be able to represent low-resource langauges such as Irish and Gaelic, we present two classification tasks to explore how useful these representations are, and three adaptations to improve the performance of these models. We find that adapting the models to work with longer sequences, and continuing pre-training on the domain of folktales improves classification performance, although these findings are tempered by the impressive performance of a baseline SVM with non-contextual features.

arxiv情報

著者 JA Meaney,Beatrice Alex,William Lamb
発行日 2024-11-08 14:26:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク