OpenICL: An Open-Source Framework for In-context Learning

要約

近年、In-context Learning (ICL) が注目され、大規模言語モデル (LLM) 評価の新しいパラダイムとして登場した。ICLは、従来の微調整手法とは異なり、パラメータを更新することなく、事前に訓練されたモデルを未経験のタスクに適応させる。しかし、ICLの実装は、多様な検索・推論手法や、モデル・データセット・タスクごとに異なる前処理が必要であるため、高度なものとなっています。前述のコンポーネントの実装を容易にするために、ICLのための統一的で柔軟なフレームワークが早急に必要である。ICL研究を促進するために、ICLとLLM評価のためのオープンソースのツールキットであるOpenICLを紹介します。OpenICLは、ユーザーがニーズに合わせて様々なコンポーネントを簡単に組み合わせることができる、非常に柔軟なアーキテクチャを持つ研究者向けのツールキットです。また、ICLを最先端の研究に適応させるプロセスを効率化するために、様々な最先端の検索・推論手法を提供しています。OpenICLの有効性は、分類、QA、機械翻訳、意味解析など、さまざまなNLPタスクで検証されています。副産物として、OpenICLはLLMの評価のための効率的かつ堅牢なツールであることがわかりました。OpenICLは、https://github.com/Shark-NLP/OpenICL で公開されています。

要約(オリジナル)

In recent years, In-context Learning (ICL) has gained increasing attention and emerged as the new paradigm for large language model (LLM) evaluation. Unlike traditional fine-tuning methods, ICL instead adapts the pre-trained models to unseen tasks without any parameter updates. However, the implementation of ICL is sophisticated due to the diverse retrieval and inference methods involved, as well as the varying pre-processing requirements for different models, datasets, and tasks. A unified and flexible framework for ICL is urgently needed to ease the implementation of the aforementioned components. To facilitate ICL research, we introduce OpenICL, an open-source toolkit for ICL and LLM evaluation. OpenICL is research-friendly with a highly flexible architecture that users can easily combine different components to suit their needs. It also provides various state-of-the-art retrieval and inference methods to streamline the process of adapting ICL to cutting-edge research. The effectiveness of OpenICL has been validated on a wide range of NLP tasks, including classification, QA, machine translation, and semantic parsing. As a side-product, we found OpenICL to be an efficient yet robust tool for LLMs evaluation. OpenICL is released at https://github.com/Shark-NLP/OpenICL

arxiv情報

著者 Zhenyu Wu,YaoXiang Wang,Jiacheng Ye,Jiangtao Feng,Jingjing Xu,Yu Qiao,Zhiyong Wu
発行日 2023-03-06 06:20:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク