要約
言語モデルは、数十万のトークンで構成される長いシーケンスを処理する必要があるタスクを解決できるようになりました。
ただし、単純なルールを繰り返し使用する必要があるタスクでは、たとえトレーニング中に見られたシーケンスよりもはるかに短いシーケンスであっても、失敗することがよくあります。
たとえば、最先端の LLM は、最大 20 個の項目を含む 2 つのリストから共通の項目を見つけることができますが、リストに 80 個の項目がある場合は失敗します。
このペーパーでは、7 つのタスクで構成されるベンチマークである Lissard を紹介します。その目的は、反復的な手続きの実行を必要とする、広範囲のシーケンス長を処理および生成するモデルの能力を評価することです。
オープンソース (Mistral-7B および Mixtral-8x7B) と独自モデル (GPT-3.5 および GPT-4) の評価では、シーケンスの複雑さが増加するにつれて、すべてのモデルにわたってパフォーマンスが一貫して低下していることが示されています。
データセットとコードは https://github.com/unicamp-dl/Lissard で入手できます。
要約(オリジナル)
Language models are now capable of solving tasks that require dealing with long sequences consisting of hundreds of thousands of tokens. However, they often fail on tasks that require repetitive use of simple rules, even on sequences that are much shorter than those seen during training. For example, state-of-the-art LLMs can find common items in two lists with up to 20 items but fail when lists have 80 items. In this paper, we introduce Lissard, a benchmark comprising seven tasks whose goal is to assess the ability of models to process and generate wide-range sequence lengths, requiring repetitive procedural execution. Our evaluation of open-source (Mistral-7B and Mixtral-8x7B) and proprietary models (GPT-3.5 and GPT-4) show a consistent decline in performance across all models as the complexity of the sequence increases. The datasets and code are available at https://github.com/unicamp-dl/Lissard
arxiv情報
著者 | Mirelle Bueno,Roberto Lotufo,Rodrigo Nogueira |
発行日 | 2024-02-20 15:12:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google