GujiBERT and GujiGPT: Construction of Intelligent Information Processing Foundation Language Models for Ancient Texts

要約

大規模な言語モデルの急速な開発という文脈で、私たちは、古文書のインテリジェントな情報処理のために特別に設計された基礎モデルである GujiBERT および GujiGPT 言語モデルを細心の注意を払ってトレーニングし、導入してきました。
これらのモデルは、簡体字と繁体字の両方を含む広範なデータセットでトレーニングされており、自動文分割、句読点、単語分割、文字の一部など、古書に関連するさまざまな自然言語処理タスクを効果的に処理できます。
-音声タグ付け、エンティティ認識、自動翻訳。
特に、これらのモデルは、公開されているデータセットを使用したさまざまな検証タスクにわたって優れたパフォーマンスを示しています。
私たちの研究結果は、古典的なテキストコーパスを使用してモデルをさらにトレーニングするために自己教師あり手法を採用することの有効性を強調しており、それによって下流のタスクに取り組む能力を強化します。
さらに、フォントの選択、コーパスのスケール、および最初のモデルの選択はすべて、最終的な実験結果に大きな影響を与えることを強調する価値があります。
デジタル人文科学および言語学の研究者の多様なテキスト処理の好みに応えるために、合計 9 つのモデル バリエーションからなる 3 つの異なるカテゴリを開発しました。
私たちは、古文書の領域に特化したこれらの基礎的な言語モデルを共有することで、古代文学作品の知的処理と学術的探求を促進し、その結果、この新しい時代における中国の豊かで尊敬される伝統文化の世界的な普及に貢献できると信じています。

要約(オリジナル)

In the context of the rapid development of large language models, we have meticulously trained and introduced the GujiBERT and GujiGPT language models, which are foundational models specifically designed for intelligent information processing of ancient texts. These models have been trained on an extensive dataset that encompasses both simplified and traditional Chinese characters, allowing them to effectively handle various natural language processing tasks related to ancient books, including but not limited to automatic sentence segmentation, punctuation, word segmentation, part-of-speech tagging, entity recognition, and automatic translation. Notably, these models have exhibited exceptional performance across a range of validation tasks using publicly available datasets. Our research findings highlight the efficacy of employing self-supervised methods to further train the models using classical text corpora, thus enhancing their capability to tackle downstream tasks. Moreover, it is worth emphasizing that the choice of font, the scale of the corpus, and the initial model selection all exert significant influence over the ultimate experimental outcomes. To cater to the diverse text processing preferences of researchers in digital humanities and linguistics, we have developed three distinct categories comprising a total of nine model variations. We believe that by sharing these foundational language models specialized in the domain of ancient texts, we can facilitate the intelligent processing and scholarly exploration of ancient literary works and, consequently, contribute to the global dissemination of China’s rich and esteemed traditional culture in this new era.

arxiv情報

著者 Dongbo Wang,Chang Liu,Zhixiao Zhao,Si Shen,Liu Liu,Bin Li,Haotian Hu,Mengcheng Wu,Litao Lin,Xue Zhao,Xiyu Wang
発行日 2023-07-11 15:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク