When does In-context Learning Fall Short and Why? A Study on Specification-Heavy Tasks

要約

インコンテキスト学習 (ICL) は、大規模言語モデル (LLM) を使用するためのデフォルトの方法となっており、その限界を調査し、根本的な原因を理解することが重要になっています。
この論文では、ICL では、従来の情報抽出タスクなど、一般の人間が習得するのに数時間を要する、複雑かつ広範なタスク仕様を持つタスクを処理するには不十分であることがわかりました。
これらのタスクに対する ICL のパフォーマンスは、ほとんどの場合、最先端の結果の半分にも達しません。
この失敗の背後にある理由を調査するために、さまざまな LLM を使用して 18 の仕様の重いタスクについて包括的な実験を実施し、コンテキストを具体的に理解できないこと、人間とのタスク スキーマ理解のずれ、および長文理解能力の不足という 3 つの主な理由を特定しました。
さらに、微調整を通じて、LLM がこれらのタスクでまともなパフォーマンスを達成できることを実証しました。これは、ICL の失敗が LLM に固有の欠陥ではなく、LLM が複雑な仕様を処理できなくなる既存の調整方法の欠点であることを示しています。
ICLを介した重いタスク。
これを実証するために、これらのタスクのために LLM で専用の命令チューニングを実行し、顕著な改善が観察されました。
この論文の分析によって、LLM がより高度な人間の要求に応えることを可能にするアライメント手法の進歩が促進されることを願っています。

要約(オリジナル)

In-context learning (ICL) has become the default method for using large language models (LLMs), making the exploration of its limitations and understanding the underlying causes crucial. In this paper, we find that ICL falls short of handling specification-heavy tasks, which are tasks with complicated and extensive task specifications, requiring several hours for ordinary humans to master, such as traditional information extraction tasks. The performance of ICL on these tasks mostly cannot reach half of the state-of-the-art results. To explore the reasons behind this failure, we conduct comprehensive experiments on 18 specification-heavy tasks with various LLMs and identify three primary reasons: inability to specifically understand context, misalignment in task schema comprehension with humans, and inadequate long-text understanding ability. Furthermore, we demonstrate that through fine-tuning, LLMs can achieve decent performance on these tasks, indicating that the failure of ICL is not an inherent flaw of LLMs, but rather a drawback of existing alignment methods that renders LLMs incapable of handling complicated specification-heavy tasks via ICL. To substantiate this, we perform dedicated instruction tuning on LLMs for these tasks and observe a notable improvement. We hope the analyses in this paper could facilitate advancements in alignment methods enabling LLMs to meet more sophisticated human demands.

arxiv情報

著者 Hao Peng,Xiaozhi Wang,Jianhui Chen,Weikai Li,Yunjia Qi,Zimu Wang,Zhili Wu,Kaisheng Zeng,Bin Xu,Lei Hou,Juanzi Li
発行日 2023-11-15 14:26:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク