Long Input Benchmark for Russian Analysis

要約

自然言語処理 (NLP) の最近の進歩により、膨大な種類のタスクを解決できる大規模言語モデル (LLM) の開発が促進されました。
これらのアプリケーションの重要な側面の 1 つは、長いテキスト ドキュメントを処理し、長いトークン シーケンスを処理できることです。
このため、長期的な文脈の理解を適切に評価することが求められています。
ロシア語に対するこのニーズに対処するために、我々は LIBRA (ロシア語分析のための長入力ベンチマーク) を提案します。これは、長文を徹底的に理解する LLM の能力を研究するために 21 の適応されたデータセットで構成されます。
テストは 4 つの複雑さのグループに分割されており、4k から 128k トークンまでのさまざまなコンテキスト長にわたってモデルを評価できます。
今後の研究の指針となるオープンソースのデータセット、コードベース、公開リーダーボードを LIBRA に提供します。

要約(オリジナル)

Recent advancements in Natural Language Processing (NLP) have fostered the development of Large Language Models (LLMs) that can solve an immense variety of tasks. One of the key aspects of their application is their ability to work with long text documents and to process long sequences of tokens. This has created a demand for proper evaluation of long-context understanding. To address this need for the Russian language, we propose LIBRA (Long Input Benchmark for Russian Analysis), which comprises 21 adapted datasets to study the LLM’s abilities to understand long texts thoroughly. The tests are divided into four complexity groups and allow the evaluation of models across various context lengths ranging from 4k up to 128k tokens. We provide the open-source datasets, codebase, and public leaderboard for LIBRA to guide forthcoming research.

arxiv情報

著者 Igor Churin,Murat Apishev,Maria Tikhonova,Denis Shevelev,Aydar Bulatov,Yuri Kuratov,Sergej Averkiev,Alena Fenogenova
発行日 2024-08-05 12:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク