Pushing the Limits of ChatGPT on NLP Tasks

要約

ChatGPT の成功にもかかわらず、ほとんどの NLP タスクにおけるそのパフォーマンスは依然として監視されたベースラインを大幅に下回っています。
この作業では、原因を調査し、標準以下のパフォーマンスが次の要因によって引き起こされていることがわかりました。(1) プロンプトのトークン制限により、監視対象データセットを最大限に活用できません。
(2) ChatGPT タスクと NLP タスクの生成性質間の不一致。
(3) LLM モデルの本質的な落とし穴、例: 幻覚、特定のキーワードへの過度の集中など。この研究では、NLP タスクにおける ChatGPT の限界を押し上げることを目的として、これらの問題に対処するための一般的なモジュールのコレクションを提案します。
私たちが提案するモジュールには、(1) より多くのデモンストレーションに対応するために、1 つの入力に対して複数のプロンプトを採用する 1 入力複数プロンプト戦略が含まれます。
(2) より良いデモンストレーション検索のために微調整されたモデルを使用する。
(3) タスクを生成の性質により適合した形式に変換する。
(4) タスク固有の複雑さに対処するために調整された推論戦略を採用する。
(5) LLM の幻覚問題に対処するための自己検証戦略。
(6) モデル予測の堅牢性を向上させる言い換え戦略。
私たちは、質問応答、常識的推論、自然言語推論、感情分析、名前付きエンティティ認識、エンティティ関係抽出、イベント抽出、依存関係解析、意味論的役割ラベル付け、および
音声のタグ付け。
提案された一連の手法を使用すると、選択した NLP タスクで ChatGPT のパフォーマンスを大幅に向上させることができ、教師ありベースラインや既存の SOTA パフォーマンスと同等以上のパフォーマンスを達成できます。

要約(オリジナル)

Despite the success of ChatGPT, its performances on most NLP tasks are still well below the supervised baselines. In this work, we looked into the causes, and discovered that its subpar performance was caused by the following factors: (1) token limit in the prompt does not allow for the full utilization of the supervised datasets; (2) mismatch between the generation nature of ChatGPT and NLP tasks; (3) intrinsic pitfalls of LLMs models, e.g., hallucination, overly focus on certain keywords, etc. In this work, we propose a collection of general modules to address these issues, in an attempt to push the limits of ChatGPT on NLP tasks. Our proposed modules include (1) a one-input-multiple-prompts strategy that employs multiple prompts for one input to accommodate more demonstrations; (2) using fine-tuned models for better demonstration retrieval; (3) transforming tasks to formats that are more tailored to the generation nature; (4) employing reasoning strategies that are tailored to addressing the task-specific complexity; (5) the self-verification strategy to address the hallucination issue of LLMs; (6) the paraphrase strategy to improve the robustness of model predictions. We conduct experiments on 21 datasets of 10 representative NLP tasks, including question answering, commonsense reasoning, natural language inference, sentiment analysis, named entity recognition, entity-relation extraction, event extraction, dependency parsing, semantic role labeling, and part-of-speech tagging. Using the proposed assemble of techniques, we are able to significantly boost the performance of ChatGPT on the selected NLP tasks, achieving performances comparable to or better than supervised baselines, or even existing SOTA performances.

arxiv情報

著者 Xiaofei Sun,Linfeng Dong,Xiaoya Li,Zhen Wan,Shuhe Wang,Tianwei Zhang,Jiwei Li,Fei Cheng,Lingjuan Lyu,Fei Wu,Guoyin Wang
発行日 2023-06-16 09:40:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク