Russian-Language Multimodal Dataset for Automatic Summarization of Scientific Papers

要約

この論文では、ロシア語の科学論文のマルチモーダル データセットの作成と、自動テキスト要約タスク用の既存の言語モデルのテストについて説明しています。
データセットの特徴は、テキスト、表、図を含むマルチモーダルなデータです。
この論文では、SBER の Gigachat と Yandex の YandexGPT という 2 つの言語モデルを使用した実験の結果を示しています。
このデータセットは 420 の論文で構成されており、https://github.com/iis-research-team/summarization-dataset で公開されています。

要約(オリジナル)

The paper discusses the creation of a multimodal dataset of Russian-language scientific papers and testing of existing language models for the task of automatic text summarization. A feature of the dataset is its multimodal data, which includes texts, tables and figures. The paper presents the results of experiments with two language models: Gigachat from SBER and YandexGPT from Yandex. The dataset consists of 420 papers and is publicly available on https://github.com/iis-research-team/summarization-dataset.

arxiv情報

著者 Alena Tsanda,Elena Bruches
発行日 2024-05-13 16:21:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク