要約
タイトル: 大規模なコード生成モデルはフューショット情報抽出のために優れている
要約:
– 大規模な言語モデル(LLMs)が、巨大なコーパスで事前に学習することで、多くのNLPタスクで印象的なフューショット学習能力を示している。
– タスクをテキストからテキストの形式に変換し、自然言語の生成LLM(NL-LLMs)を使って解決することが一般的である。
– NL-LLMsでは、IEタスクの出力が通常構造化されており、そのため平文のテキストに変換するのが難しいという問題がある。
– 本論文では、自然言語の代わりにコードの形式で構造化された出力を再設計し、CodexなどのコードLLMsを利用して、名前付きエンティティ抽出と関係抽出などのIEタスクを実行することを提案している。
– NL-LLMsと対照的に、コードLLMsはコードスタイルのプロンプトをデザインしてIEタスクをコード生成タスクとして定式化することで、これらのIEタスクとよく一致することが示されている。
– 7つのベンチマークでの実験結果は、私たちの方法が、IEタスクに特化した中程度のサイズの事前学習モデル(例えばUIE)のファインチューニングやフューショット設定でNL-LLMsをプロンプトすることよりも一貫して優れた結果を示していることを示している。
– 私たちは、Code-LLMsをIEタスクに利用するメリットを実証するために、一連の詳細な分析を行っている。
要約(オリジナル)
Large language models (LLMs) pre-trained on massive corpora have demonstrated impressive few-shot learning ability on many NLP tasks. A common practice is to recast the task into a text-to-text format such that generative LLMs of natural language (NL-LLMs) like GPT-3 can be prompted to solve it. However, it is nontrivial to perform information extraction (IE) tasks with NL-LLMs since the output of the IE task is usually structured and therefore is hard to be converted into plain text. In this paper, we propose to recast the structured output in the form of code instead of natural language and utilize generative LLMs of code (Code-LLMs) such as Codex to perform IE tasks, in particular, named entity recognition and relation extraction. In contrast to NL-LLMs, we show that Code-LLMs can be well-aligned with these IE tasks by designing code-style prompts and formulating these IE tasks as code generation tasks. Experiment results on seven benchmarks show that our method consistently outperforms fine-tuning moderate-size pre-trained models specially designed for IE tasks (e.g., UIE) and prompting NL-LLMs under few-shot settings. We further conduct a series of in-depth analyses to demonstrate the merits of leveraging Code-LLMs for IE tasks.
arxiv情報
著者 | Peng Li,Tianxiang Sun,Qiong Tang,Hang Yan,Yuanbin Wu,Xuanjing Huang,Xipeng Qiu |
発行日 | 2023-05-09 18:40:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI